Abed AJRAOU, Directeur de l’offre Information Management, Devoteam Corporate
Alors comment s’en sortir ? Comment démêler le vrai du faux pour effectivement exploiter l’ensemble des informations dites Big Data en toute sécurité et ne pas se retrouver avec un software ou une Appliance à bout de souffle lorsque vous allez commencer à mettre en place votre stratégie complète sur le Big Data ?
Dans ce billet, vous trouverez quelques clés de réflexion.
Tout d’abord revenons à la définition même. Mais qu’est-ce que le Big Data ? Pour cela, il faut prendre en considération une très bonne analyse de Gartner sous le titre de « Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data » qui a été publiée le 27 juin 2011 où figure cette définition. Il faut juste garder à l’esprit les 3 V : le volume, la variété des données et la vélocité.
Dans ce billet, vous trouverez quelques clés de réflexion.
Tout d’abord revenons à la définition même. Mais qu’est-ce que le Big Data ? Pour cela, il faut prendre en considération une très bonne analyse de Gartner sous le titre de « Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data » qui a été publiée le 27 juin 2011 où figure cette définition. Il faut juste garder à l’esprit les 3 V : le volume, la variété des données et la vélocité.
Il est vrai que certaines personnes ont essayé d’apporter leur grain de sel en y ajoutant un 4ème V (la valeur), mais quand on y réfléchit bien, toute donnée pourrait apporter de la valeur … mais encore faut-il se creuser un peu les méninges.
J’ai noté différents articles assez erronés voir créant de la confusion que j’ai catégorisé ainsi :
1. « Nous savons traiter le Big Data car nous savons exploiter des données massives »
Vous trouverez assez facilement beaucoup d’articles là-dessus, sur la possibilité de gérer de la grosse volumétrie (plusieurs téra-octet de données). Ce genre d’articles est assez déroutant car il y a le mot Big Data alors qu’à aucun moment on parle de données non-structurées – vous savez ces données qui représentent 85% des données au sein d’une entreprise et qui n’est pas possible d’exploiter directement via une base de données dite classique (SGBD). On est loin ici du Big Data car pas un mot sur la vitesse non plus … traiter seulement de la grosse volumétrie ce n’est pas du Big Data !
2. « Grâce à nos technologies MPP, nous savons faire des calculs très rapides tout en stockant des téra-octets de données … »
Ok, on arrive ici à faire de « massive parallel processing », très bien. Nous avons 2 V (si l’on souhaite être très rigoureux, nous avons en fait 1 V ½ car le téraoctet (To) n’est pas encore une grosse volumétrie de nos jours … avec les technologies Big Data actuelles, nous pouvons et savons traiter des péta-octet de données et bien plus). Mais où est la variété ? Lorsque j’ai posé naïvement la question à cet éditeur sur le non-structuré, on m’a rétorqué, que de toutes les manières, il était nécessaire de structurer ces données pour y apporter de l’intelligence via différents algorithmes. Ceci est tout à fait vrai mais cela signifie que la gestion, le stockage et la modélisation des données non-structurées est faite par un tiers ! Et du coup, pourquoi se dire Big Data alors que le V de la variété est géré ailleurs …
3. « Nous faisons du Big Data car nous avons des connecteurs sur Hadoop … »
Plus difficile mais tout aussi criant. Le deuxième buzz word est le mot Hadoop. Le mot magique que beaucoup exploitent ou agitent pour dire qu’ils sont « Big Data Ready ».
Regardons donc de plus près. Il y a des éditeurs de reporting et d’intégration des données qui sont fiers d’annoncer un connecteur à Hadoop. Sauf que le fait de dire un connecteur à Hadoop ne signifie rien ! Hadoop est un écosystème et n’est pas une base de données. Donc, en creusant un peu, il s’avère qu’effectivement ils disposent d’un connecteur sur Hive – qui est le datawarehouse d’Hadoop (pour plus de détails, je vous renvoie sur mon billet à ce sujet). En d’autres termes, ces logiciels exploitent juste la puissance d’Hadoop rien de plus.
C’est comme si vous cherchez à acheter une voiture sportive rapide, très puissante et vous allez chez un concessionnaire de voitures familiales. Vous lui demandez de vous vendre une Ferrari, le vendeur vous rassure car il a un réseau de distribution très vaste et il peut vous trouver la voiture souhaitée. Saura-t-il pour autant vous conseiller sur le type de bolide répondant à vos besoins ? Saura-t-il vous conseiller sur la manipulation, l’entretien ou encore comment l’utiliser à bon escient ? … vous allez bien sûr me répondre que non !
Au passage, MapR (une des distributions d’Hadoop) a lancé, depuis cet été, un connecteur ODBC sur Hive … ODBC sera-t-il Big Data ?
4. « Grâce à l’in-memory, nous sommes Big Data compliant. En effet, nos traitements sont 20, voire 50 fois plus rapide !… »
Je garde bien sûr le meilleur pour la fin. Il y a des éditeurs qui viennent de découvrir que l’in-memory permet d’accélérer les traitements et que les accès en mémoire sont plus rapides que les accès disques ! C’est plutôt intéressant en soi mais pour pouvoir le classer cette fonctionnalité dans la rubrique « Big Data », il manque évidemment les 2 autres V.
En résumé, en reprenant simplement la définition, on parvient à se sortir de cette masse d’informations même si effectivement ce domaine évolue très rapidement et que beaucoup ont tendance à semer la confusion plutôt que d’être pédagogue et explicatif.
Enfin, à la question, est-ce qu’une entreprise a besoin d’exploiter l’ensemble de ces 3 V ? De toutes évidences, oui ! Pour une simple et bonne raison, cela constitue de nos jours encore un atout concurrentiel … la vraie question est plutôt : pour encore combien de temps le Big Data restera t-il un atout concurrentiel ?
A très bientôt et d’ici-là, méfiez vous du déluge de… contre-vérités !
J’ai noté différents articles assez erronés voir créant de la confusion que j’ai catégorisé ainsi :
1. « Nous savons traiter le Big Data car nous savons exploiter des données massives »
Vous trouverez assez facilement beaucoup d’articles là-dessus, sur la possibilité de gérer de la grosse volumétrie (plusieurs téra-octet de données). Ce genre d’articles est assez déroutant car il y a le mot Big Data alors qu’à aucun moment on parle de données non-structurées – vous savez ces données qui représentent 85% des données au sein d’une entreprise et qui n’est pas possible d’exploiter directement via une base de données dite classique (SGBD). On est loin ici du Big Data car pas un mot sur la vitesse non plus … traiter seulement de la grosse volumétrie ce n’est pas du Big Data !
2. « Grâce à nos technologies MPP, nous savons faire des calculs très rapides tout en stockant des téra-octets de données … »
Ok, on arrive ici à faire de « massive parallel processing », très bien. Nous avons 2 V (si l’on souhaite être très rigoureux, nous avons en fait 1 V ½ car le téraoctet (To) n’est pas encore une grosse volumétrie de nos jours … avec les technologies Big Data actuelles, nous pouvons et savons traiter des péta-octet de données et bien plus). Mais où est la variété ? Lorsque j’ai posé naïvement la question à cet éditeur sur le non-structuré, on m’a rétorqué, que de toutes les manières, il était nécessaire de structurer ces données pour y apporter de l’intelligence via différents algorithmes. Ceci est tout à fait vrai mais cela signifie que la gestion, le stockage et la modélisation des données non-structurées est faite par un tiers ! Et du coup, pourquoi se dire Big Data alors que le V de la variété est géré ailleurs …
3. « Nous faisons du Big Data car nous avons des connecteurs sur Hadoop … »
Plus difficile mais tout aussi criant. Le deuxième buzz word est le mot Hadoop. Le mot magique que beaucoup exploitent ou agitent pour dire qu’ils sont « Big Data Ready ».
Regardons donc de plus près. Il y a des éditeurs de reporting et d’intégration des données qui sont fiers d’annoncer un connecteur à Hadoop. Sauf que le fait de dire un connecteur à Hadoop ne signifie rien ! Hadoop est un écosystème et n’est pas une base de données. Donc, en creusant un peu, il s’avère qu’effectivement ils disposent d’un connecteur sur Hive – qui est le datawarehouse d’Hadoop (pour plus de détails, je vous renvoie sur mon billet à ce sujet). En d’autres termes, ces logiciels exploitent juste la puissance d’Hadoop rien de plus.
C’est comme si vous cherchez à acheter une voiture sportive rapide, très puissante et vous allez chez un concessionnaire de voitures familiales. Vous lui demandez de vous vendre une Ferrari, le vendeur vous rassure car il a un réseau de distribution très vaste et il peut vous trouver la voiture souhaitée. Saura-t-il pour autant vous conseiller sur le type de bolide répondant à vos besoins ? Saura-t-il vous conseiller sur la manipulation, l’entretien ou encore comment l’utiliser à bon escient ? … vous allez bien sûr me répondre que non !
Au passage, MapR (une des distributions d’Hadoop) a lancé, depuis cet été, un connecteur ODBC sur Hive … ODBC sera-t-il Big Data ?
4. « Grâce à l’in-memory, nous sommes Big Data compliant. En effet, nos traitements sont 20, voire 50 fois plus rapide !… »
Je garde bien sûr le meilleur pour la fin. Il y a des éditeurs qui viennent de découvrir que l’in-memory permet d’accélérer les traitements et que les accès en mémoire sont plus rapides que les accès disques ! C’est plutôt intéressant en soi mais pour pouvoir le classer cette fonctionnalité dans la rubrique « Big Data », il manque évidemment les 2 autres V.
En résumé, en reprenant simplement la définition, on parvient à se sortir de cette masse d’informations même si effectivement ce domaine évolue très rapidement et que beaucoup ont tendance à semer la confusion plutôt que d’être pédagogue et explicatif.
Enfin, à la question, est-ce qu’une entreprise a besoin d’exploiter l’ensemble de ces 3 V ? De toutes évidences, oui ! Pour une simple et bonne raison, cela constitue de nos jours encore un atout concurrentiel … la vraie question est plutôt : pour encore combien de temps le Big Data restera t-il un atout concurrentiel ?
A très bientôt et d’ici-là, méfiez vous du déluge de… contre-vérités !
Autres articles
-
Vendée Globe : Devoteam soutient Fabrice Amedeo et son projet océanographique de collecte de données
-
Devoteam et Databricks renforcent leur partenariat en EMEA, avec désormais le plus haut niveau de certification « Elite » et des objectifs ambitieux en matière de transformation via la data et l’IA
-
Olivier Mallet rejoint Devoteam pour prendre la tête de son agence IA
-
Devoteam et Vertbaudet redéfinissent les normes du retail avec une nouvelle plateforme Data en temps réel
-
Devoteam rejoint le réseau de partenaires de Snowflake