4. Le Big Data
De gauche à droite : Charles NGANDO BLACK, Vincent GIVAUDAN, Mathieu CONTE-MAIORINO
Animateurs principaux : April Reeve (EMC Consulting) / Vladimir Bacvanski (SciSpike) / Dan McCreary ( Kelly-McCreary & Associates)
Public : Enterprise Data Architect / Chef de projets Big Data / Data Scientist
On a coutume de caractériser le Big Data par 3 ou 4V. Loin des concepts et autres définitions ou clichés, examinons successivement les challenges que créent chacun des 4V au niveau d’une organisation.
Le premier V pour le volume (des données) : il caractérise à la fois le changement d’échelle de la croissance du volume et les grandeurs atteintes. Les taux de croissance ont considérablement augmenté faisant passer les grandeurs de volume de térabytes vers des zettabytes, en quelques années. Dans ces conditions, l’exécution de traitements manuels devient malaisée, voire impossible. L’automatisation des traitements est possible mais l’exécution peut se traduire par des temps de traitement longs (entendons non conformes aux objectifs des métiers) et affecter de manière considérable la réactivité, la qualité de service, …, plus simplement l’image et le revenu d’une organisation.
Ces impacts potentiels sont accentués par :
● la variété (des sources et formats de données), second V, qui caractérise l’hétérogénéité des canaux de captation (tabulaires, documents, audio, vidéo, compteurs, réseaux, image, etc.) et des structures (standards, règles de domaine, formats de stockage, types de données, etc.), la complexité des règles et des opérations de rapprochement et de mise en forme qui précèdent l’usage ;
● la vélocité (des données), troisième V, qui caractérise une fréquence de changement élevée dans les données et qui impose de les traiter au plus proche du temps réel, au risque de les accumuler avec un coût de traitement ou au risque de ne pas pouvoir les utiliser pour répondre aux attentes ;
● la véracité (des données), quatrième V, qui introduit qualité et gouvernance des données dans le Big Data comme des actions positives.
Dès lors, les bénéfices escomptés des projets de Big Data proviendront avant tout de leur capacité à optimiser l’exécution des processus métiers de l’organisation (dans ce contexte) et gagner en efficacité, en réactivité, en qualité de service, etc.
Mais, le Big Data permet d'explorer un nouveau champ de possibles en répondant à des besoins métiers déjà identifiés mais jusqu'alors extrêmement compliqués voire impossible à satisfaire. Il permet également, au sein des organisations qui l'ont mis en œuvre, une innovation réelle (grâce au savoir-faire des Data Scientists, spécialistes des traitements complexes et massifs des données à des fins prédictives) que ce soit en découvrant de nouveaux usages par les données ou en permettant la manipulation de données jusqu'alors inexploitées. Les bénéfices proviennent dans ce cas de la capacité du Big Data à rendre possible tous ces nouveaux usages.
Malgré une très forte connotation technologique, les projets Big Data doivent avant tout être pilotés par des objectifs métiers pour pouvoir s'implanter durablement dans l’organisation. Même si des nouveaux usages insoupçonnés pourront émerger grâce au Big Data, il est nécessaire, pour une première version d'un projet, d'identifier des cas d'usage qui dégageront immédiatement une valeur réelle. Cela participe à l’ancrage de la pratique dans l’organisation et à la montée en compétence. La découverte de nouveaux usages et la captation de nouvelles sources de données contribueront ensuite à la montée en puissance.
Les projets Big Data sont un peu différents des projets classiques dans le sens où ils comportent en réalité deux projets : la mise en place d'un Bac à sable ("Sandbox") ou Laboratoire ("Lab") et celle d'une Usine à informations ("Information Factory") qui ont une logique, une organisation, des règles de gouvernance et des utilisateurs qui sont propres à chacun :
● Le Laboratoire est un environnement flexible, dynamique dans lequel les Data Scientists manipulent les données afin de les analyser, de trouver des patterns et des modèles de développement. Il fonctionne en quelque sorte comme des équipes de R&D.
● L'Usine à informations est la plateforme de production qui traitent les données en masse et produit les rapports, les "triggers actions" et autres résultats attendus. A ce titre, elle opérationnalise les prédictions des Data Scientists pour l’action. Elle doit disposer d'une architecture performante et robuste ainsi que des processus adéquats de production.
Terminons en évoquant le Business Case d’Intel, leader mondial de la fabrication de microprocesseurs. En 2013, le Groupe totalisait 95 000 employés, 63 implantations, 164 sites, 68 Data Centers 147 000 périphériques à gérer.
Intel a décidé de lancer un projet Big Data pour passer d’une démarche réactive de gestion des incidents clients vers une démarche proactive, en permettant aux gestionnaires d’incidents de disposer de prédictions sur les demandes de support entrantes. L’enjeu est d’accroître la stabilité/fidélité client en limitant erreurs et plantages qui impactent la productivité des utilisateurs.
Le projet a été mené en deux phases : une phase de “Proof of Concept” qui a permis de démontrer la valeur et d’ancrer la démarche dans l’organisation, suivi d’une phase de généralisation. Il se base sur la méthode CRISP-DM. Le modèle prédictif obtenu combine des millions d’incidents à des centaines de millions d’événements pour livrer des prédictions et orienter les actions des gestionnaires d’incidents.
Public : Enterprise Data Architect / Chef de projets Big Data / Data Scientist
On a coutume de caractériser le Big Data par 3 ou 4V. Loin des concepts et autres définitions ou clichés, examinons successivement les challenges que créent chacun des 4V au niveau d’une organisation.
Le premier V pour le volume (des données) : il caractérise à la fois le changement d’échelle de la croissance du volume et les grandeurs atteintes. Les taux de croissance ont considérablement augmenté faisant passer les grandeurs de volume de térabytes vers des zettabytes, en quelques années. Dans ces conditions, l’exécution de traitements manuels devient malaisée, voire impossible. L’automatisation des traitements est possible mais l’exécution peut se traduire par des temps de traitement longs (entendons non conformes aux objectifs des métiers) et affecter de manière considérable la réactivité, la qualité de service, …, plus simplement l’image et le revenu d’une organisation.
Ces impacts potentiels sont accentués par :
● la variété (des sources et formats de données), second V, qui caractérise l’hétérogénéité des canaux de captation (tabulaires, documents, audio, vidéo, compteurs, réseaux, image, etc.) et des structures (standards, règles de domaine, formats de stockage, types de données, etc.), la complexité des règles et des opérations de rapprochement et de mise en forme qui précèdent l’usage ;
● la vélocité (des données), troisième V, qui caractérise une fréquence de changement élevée dans les données et qui impose de les traiter au plus proche du temps réel, au risque de les accumuler avec un coût de traitement ou au risque de ne pas pouvoir les utiliser pour répondre aux attentes ;
● la véracité (des données), quatrième V, qui introduit qualité et gouvernance des données dans le Big Data comme des actions positives.
Dès lors, les bénéfices escomptés des projets de Big Data proviendront avant tout de leur capacité à optimiser l’exécution des processus métiers de l’organisation (dans ce contexte) et gagner en efficacité, en réactivité, en qualité de service, etc.
Mais, le Big Data permet d'explorer un nouveau champ de possibles en répondant à des besoins métiers déjà identifiés mais jusqu'alors extrêmement compliqués voire impossible à satisfaire. Il permet également, au sein des organisations qui l'ont mis en œuvre, une innovation réelle (grâce au savoir-faire des Data Scientists, spécialistes des traitements complexes et massifs des données à des fins prédictives) que ce soit en découvrant de nouveaux usages par les données ou en permettant la manipulation de données jusqu'alors inexploitées. Les bénéfices proviennent dans ce cas de la capacité du Big Data à rendre possible tous ces nouveaux usages.
Malgré une très forte connotation technologique, les projets Big Data doivent avant tout être pilotés par des objectifs métiers pour pouvoir s'implanter durablement dans l’organisation. Même si des nouveaux usages insoupçonnés pourront émerger grâce au Big Data, il est nécessaire, pour une première version d'un projet, d'identifier des cas d'usage qui dégageront immédiatement une valeur réelle. Cela participe à l’ancrage de la pratique dans l’organisation et à la montée en compétence. La découverte de nouveaux usages et la captation de nouvelles sources de données contribueront ensuite à la montée en puissance.
Les projets Big Data sont un peu différents des projets classiques dans le sens où ils comportent en réalité deux projets : la mise en place d'un Bac à sable ("Sandbox") ou Laboratoire ("Lab") et celle d'une Usine à informations ("Information Factory") qui ont une logique, une organisation, des règles de gouvernance et des utilisateurs qui sont propres à chacun :
● Le Laboratoire est un environnement flexible, dynamique dans lequel les Data Scientists manipulent les données afin de les analyser, de trouver des patterns et des modèles de développement. Il fonctionne en quelque sorte comme des équipes de R&D.
● L'Usine à informations est la plateforme de production qui traitent les données en masse et produit les rapports, les "triggers actions" et autres résultats attendus. A ce titre, elle opérationnalise les prédictions des Data Scientists pour l’action. Elle doit disposer d'une architecture performante et robuste ainsi que des processus adéquats de production.
Terminons en évoquant le Business Case d’Intel, leader mondial de la fabrication de microprocesseurs. En 2013, le Groupe totalisait 95 000 employés, 63 implantations, 164 sites, 68 Data Centers 147 000 périphériques à gérer.
Intel a décidé de lancer un projet Big Data pour passer d’une démarche réactive de gestion des incidents clients vers une démarche proactive, en permettant aux gestionnaires d’incidents de disposer de prédictions sur les demandes de support entrantes. L’enjeu est d’accroître la stabilité/fidélité client en limitant erreurs et plantages qui impactent la productivité des utilisateurs.
Le projet a été mené en deux phases : une phase de “Proof of Concept” qui a permis de démontrer la valeur et d’ancrer la démarche dans l’organisation, suivi d’une phase de généralisation. Il se base sur la méthode CRISP-DM. Le modèle prédictif obtenu combine des millions d’incidents à des centaines de millions d’événements pour livrer des prédictions et orienter les actions des gestionnaires d’incidents.
Conclusion
Dans une présentation au titre original « My name is… And I love data ! », Missy Wittmann (Présidente du Chapitre Dama Wisconsin) déclare « les moteurs de recherche nous ont formatés et nous ont fait croire que n'importe quelle information était facilement accessible et véridique ». Mais, comment, se demande-t-elle, arriver à trouver une information de qualité dans une montagne de données ?
● Selon Google, nous créons tous les 2 jours autant de contenu numérique que ce que nous avons pu générer jusqu'en 2003 ;
● En 2012, le volume de données a été multiplié par 4 par rapport à l’année précédente ;
● La mauvaise qualité des données coûte 600 milliards de $ aux US chaque année ;
● Etc.
Comment ne pas ériger dans ces conditions la gestion des données parmi les priorités de l’organisation ? A ce titre, l’université des données offre un cadre de formation, d’information et de certification qui favorise la prise de conscience et l’action.
Par la diversité des sujets abordés et la richesse de ses enseignements, mais aussi la qualité des intervenants, cette édition de l’EDW aura tenu ses promesses. En attendant la prochaine édition qui se déroulera à Washington DC, nous pouvons d’ores et déjà vous livrer quelques nouveautés sur la “bible” du Data Management, DMBOK attendu pour une seconde édition Q1 2015 :
○ La stratégie sur les données, absente de la première version, va faire son apparition, de même que l’analyse de la maturité et le Big Data.
○ La gouvernance des données, sujet partiellement abordé, sera quant à lui très largement approfondi.
Enfin, une nouvelle concernant l’association DAMA dont le chapitre français vient d’être lancé, afin de contribuer au rapprochement des professionnels locaux aux réflexions et travaux de l’association sur un sujet des plus importants aujourd’hui.
● Selon Google, nous créons tous les 2 jours autant de contenu numérique que ce que nous avons pu générer jusqu'en 2003 ;
● En 2012, le volume de données a été multiplié par 4 par rapport à l’année précédente ;
● La mauvaise qualité des données coûte 600 milliards de $ aux US chaque année ;
● Etc.
Comment ne pas ériger dans ces conditions la gestion des données parmi les priorités de l’organisation ? A ce titre, l’université des données offre un cadre de formation, d’information et de certification qui favorise la prise de conscience et l’action.
Par la diversité des sujets abordés et la richesse de ses enseignements, mais aussi la qualité des intervenants, cette édition de l’EDW aura tenu ses promesses. En attendant la prochaine édition qui se déroulera à Washington DC, nous pouvons d’ores et déjà vous livrer quelques nouveautés sur la “bible” du Data Management, DMBOK attendu pour une seconde édition Q1 2015 :
○ La stratégie sur les données, absente de la première version, va faire son apparition, de même que l’analyse de la maturité et le Big Data.
○ La gouvernance des données, sujet partiellement abordé, sera quant à lui très largement approfondi.
Enfin, une nouvelle concernant l’association DAMA dont le chapitre français vient d’être lancé, afin de contribuer au rapprochement des professionnels locaux aux réflexions et travaux de l’association sur un sujet des plus importants aujourd’hui.
Cette série d'articles a été rédigée par l'équipe de Pramana, cabinet de conseil français spécialisé en Transformation d’entreprise et Gestion de l’Information :
- Charles NGANDO BLACK, Directeur, CDMP (2014)
- Vincent GIVAUDAN, Manager, CDMP (2014)
- Mathieu CONTE-MAIORINO, Consultant, CDMP (2014)
- Charles NGANDO BLACK, Directeur, CDMP (2014)
- Vincent GIVAUDAN, Manager, CDMP (2014)
- Mathieu CONTE-MAIORINO, Consultant, CDMP (2014)