Big Data : Il faut un bon équipage pour ne pas se noyer dans le data lake


Rédigé par le 17 Mai 2016

Le battage publi promotionnel au sujet des lacs de données n’aide pas les entreprises à se faire une idée exacte de ce que cette approche peut leur apporter. De nombreux fournisseurs commercialisent des solutions pour réaliser des lacs de données et les présentent comme un élément essentiel pour capitaliser sur les opportunités Big Data, mais ils sont peu diserts sur la façon de les exploiter et de tirer des avantages métiers significatifs.



Michel Bruley
Le plus souvent les lacs de données sont commercialisés en tant que plates-formes qui permettent de gérer et d’analyser les différents gisements de données de l’entreprise dans leur format brut d’origine. Ainsi au lieu de la traditionnelle, approche de sélection, de transformation et d’organisation des données dans des entrepôts d’entreprises ou des data marts, il s’agit de simplement déverser, dans leur format original, des données dans le lac. He hop, sans grand effort les données sont alors disponibles pour être analysées, croisées et en tirer toute la valeur qu’elles renferment au grand bénéfice des différentes fonctions, métiers de l’entreprise.

Les lacs permettent de gérer en un seul lieu toutes les données utiles à l’entreprise, quels que soient leurs sources ou leurs formats, permettant ainsi de dépasser les problèmes de silos constitués indépendamment les uns des autres. Cependant, alors que le battage publi promotionnel suggère au public que toute l'entreprise pourra tirer profit des lacs de données, ce qui dans l’absolu est vrai, aujourd’hui très peu de personnes, d’entités, d’entreprises pourront en fait y arriver. Le processus de mise en valeur des données d’un lac est plein de difficultés, d’embûches, et ce qui est incontournable c’est que sans une bonne gouvernance des métadonnées il est impossible de se sortir des pièges sémantiques des données brutes. Sans métadonnées descriptives, le lac de données risque de se transformer en un marécage de données.

De par sa conception, le lac contient toutes sortes de données dont il convient de déterminer la qualité, d’assumer la sécurité et de contrôler l’accès en respect des exigences réglementaires, en particulier de la vie privée des personnes concernées par toutes ces informations. Sa valorisation suppose aussi que les utilisateurs connaissent et comprennent le biais contextuel de la façon dont les données ont été originellement saisies, qu'ils appréhendent la nature des données et leur structure, qu'ils savent comment concilier et fusionner les différentes sources de données disparates.

Les utilisateurs finaux à qui on donne accès au lac de données, n’ont sans de bons budgets et une aide très conséquente d’informaticiens, de data scientists, de statisticiens, aucune chance de tirer une valeur significative de leurs données. De plus il est évident qu’aujourd’hui la majorité des équipes mixtes de professionnels (métier, IT, analyste …) dans les grandes entreprises n’ont pas beaucoup d’expérience en matière d’analyse de mégadonnées et leur montée en compétence sera longue.

Face à cette situation, les entreprises n’ont pas intérêt à essayer de tout expérimenter, de tout inventer, seules. Il convient sans aucun doute de se faire conseiller, encore faut-il éviter de s’appuyer uniquement sur des consultants avant-vente, spécialistes auto proclamés qui cherchent avant tout à vous vendre leur solution, ou plutôt la nouvelle solution de leur maison mère, le plus souvent américaine, qu’ils ont découverte lors de leur dernier kick off, en même temps que leurs objectifs de vente.

Pour aller plus loin sur ce dernier sujet, vous pouvez consulter un post de mon blog, intitulé : Propos sur les conseils en Big Data http://www.decideo.fr/bruley/Propos-sur-les-conseils-en-Big-Data-Mega-Donnees_a101.html



Dans la même rubrique :