Une synthèse des opinions exprimées par les analystes et cabinets de conseil influents dégage trois critères essentiels qui recueillent l'unanimité des voix : volume, vitesse (ou vélocité) et variété. Nous pourrions ainsi établir la formule marketo-mathématique : Big Data = Data x V3. Mais il est plus que nécessaire de détailler chacun des éléments.
Volume
C'est évidemment le premier critère qui vient à l'esprit. Mais aux jeunes commerciaux pré-pubères je rappellerai que la notion de volume est relative dans le temps. Lorsque IBM met sur le marché en 1958 le RAMAC, premier disque dur de 5 Mo, le marketing de la compagnie aurait refusé le développement d'un modèle de 10 Mo pensant qu'il n'auraient pas la possibilité de le vendre, personne ne sachant comment remplir 10 Mo à cette époque. Lorsqu'il y a trente ans, Teradata adopte ce nom, c'est que le téraoctet est un objectif, encore ambitieux; alors qu'aujourd'hui un disque de 1 To coute moins de 200 euros.
Qu'est-ce donc à l'aune du Big Data que de gros volumes de données ? Les entreprises dont les entrepôts de données décisionnelles ont dépassé le Péta-octet commencent à se multiplier. La limite du big data est-elle au-dessus ? A l'exaoctet, au zettaoctet ? La même limite doit-elle être utilisée dans tous les secteurs d'activité (sociétés commerciales, recherche scientifique, organismes publics…) ?
Le volume est d'évidence un critère majeur du big data. Mais son évaluation est délicate.
Elle est par ailleurs fortement évolutive. Maintenant que le monde de l'internet des objets est en plein développement. Que les voitures, les téléphones, les machines à café et demain les objets de notre quotidien communiqueront avec un point central et entre eux, les volumes concernés vont encore dépasser les plus ambitieuses des estimations. Comment quantifier la limite de ce qui est "big data" et de ce qui n'en est pas ?
Qu'est-ce donc à l'aune du Big Data que de gros volumes de données ? Les entreprises dont les entrepôts de données décisionnelles ont dépassé le Péta-octet commencent à se multiplier. La limite du big data est-elle au-dessus ? A l'exaoctet, au zettaoctet ? La même limite doit-elle être utilisée dans tous les secteurs d'activité (sociétés commerciales, recherche scientifique, organismes publics…) ?
Le volume est d'évidence un critère majeur du big data. Mais son évaluation est délicate.
Elle est par ailleurs fortement évolutive. Maintenant que le monde de l'internet des objets est en plein développement. Que les voitures, les téléphones, les machines à café et demain les objets de notre quotidien communiqueront avec un point central et entre eux, les volumes concernés vont encore dépasser les plus ambitieuses des estimations. Comment quantifier la limite de ce qui est "big data" et de ce qui n'en est pas ?
Vitesse
Il est bien loin le temps des traitements "batch" où les données pouvaient être tranquillement collectées avant d'être analysées par paquet. Aujourd'hui les applications sur Internet, les réseaux sociaux, les objets connectés, produisent des données en permanence. Impossible d'arrêter, ne serait-ce qu'un instant, de les collecter, le retard accumulé serait vite impossible à rattraper. Il y a un an, Twitter comptabilisait 177 millions de tweets par mois, soit 66 tweets par seconde. Un constructeur de voitures serait en train de mettre en place un système de remontée de 150 millions d'événements par jour. De tels volumes imposent de traiter l'information au fil de l'eau pour au moins sélectionner celle qui devra être analysée et écarter le reste. Et si votre activité impose une réaction en temps réel, vous n'aurez pas d'autre choix que de construire votre système d'analyse également en quasi-temps réel.
Le big data consiste donc également à analyser de gros volumes de données dans des délais très courts; de se rapprocher du temps réel.
Le big data consiste donc également à analyser de gros volumes de données dans des délais très courts; de se rapprocher du temps réel.
Variété
Il faudrait d'ailleurs préciser tout de suite variété et complexité, deux critères que j'aurais tendance à regrouper dans le même paragraphe. "Variété" car le traitement de gros volumes de données structurées n'est ni récent, ni compliqué. Les entrepôts de données des banques, des assureurs, des distributeurs, des compagnies de télécommunication gèrent depuis plusieurs décennies de très gros volumes de données structurées.
L'originalité et la nouveauté sont de pouvoir maintenant analyser de gros volumes de données semi-structurées ou non structurées. Des données semi-structurées, souvent sous forme de structures XML, combinent des données non-structurées et des données structurées générées (automatiquement ou pas) à partir des premières. Des données non structurées (images, vidéos, audio, textes…) qu'il sera certainement possible dans un futur proche d'analyser de manière aussi simple que des champs numériques ou textes.
Bien sur les données sociales font partie de ces nouvelles informations analysables, mais également des données venant du monde de la santé, des sciences de la vie et de la terre, des informations qualitatives difficiles à exprimer sous forme d'un simple curseur, etc.
L'originalité et la nouveauté sont de pouvoir maintenant analyser de gros volumes de données semi-structurées ou non structurées. Des données semi-structurées, souvent sous forme de structures XML, combinent des données non-structurées et des données structurées générées (automatiquement ou pas) à partir des premières. Des données non structurées (images, vidéos, audio, textes…) qu'il sera certainement possible dans un futur proche d'analyser de manière aussi simple que des champs numériques ou textes.
Bien sur les données sociales font partie de ces nouvelles informations analysables, mais également des données venant du monde de la santé, des sciences de la vie et de la terre, des informations qualitatives difficiles à exprimer sous forme d'un simple curseur, etc.
Choisir, c'est renoncer !
Une application, un outil, un service "Big Data" pourraient ainsi s'exprimer par la combinaison de ces trois critères : de très gros volumes de données, générées sous forme d'un flux rapide, et de différents types. La combinaison de ces trois critères permettrait de définir ce qui est, et ce qui n'est pas du big data.
Car définir c'est choisir. Et choisir c'est renoncer, comme l'a dit André Gide. Une solution de facilité serait de laisser tout le monde se prévaloir du big data sans limite. Mais ce serait accorder du crédit à ceux qui ont déjà pris les devants et attribué le titre de mot-clef le plus confus de la décennie au Big Data. Le risque corollaire est de voir fleurir des sous-ensembles purement marketing, tout comme le "cloud" est devenu "public", "privé", "hybride"… Ne tombons pas dans ce panneau et osons définir, c'est à dire restreindre. Et tant pis pour ceux qui ne se retrouveront pas dans la définition. Il y a une vie en dehors du big data !
Car définir c'est choisir. Et choisir c'est renoncer, comme l'a dit André Gide. Une solution de facilité serait de laisser tout le monde se prévaloir du big data sans limite. Mais ce serait accorder du crédit à ceux qui ont déjà pris les devants et attribué le titre de mot-clef le plus confus de la décennie au Big Data. Le risque corollaire est de voir fleurir des sous-ensembles purement marketing, tout comme le "cloud" est devenu "public", "privé", "hybride"… Ne tombons pas dans ce panneau et osons définir, c'est à dire restreindre. Et tant pis pour ceux qui ne se retrouveront pas dans la définition. Il y a une vie en dehors du big data !
Alors qu'en pensez-vous ?
Voyez-vous d'autres critères qui devraient être ajoutés pour définir ce qu'est le Big Data ?
Et pour chacun des critères mentionnés, comment établir une grille d'évaluation ? Pas forcément chiffrée, mais comment définir "un gros volume de données", "des données variées" ?
Merci par avance de vos commentaires qui nous permettront de faire ensemble avancer le sujet.
Et pour chacun des critères mentionnés, comment établir une grille d'évaluation ? Pas forcément chiffrée, mais comment définir "un gros volume de données", "des données variées" ?
Merci par avance de vos commentaires qui nous permettront de faire ensemble avancer le sujet.
Autres articles
-
24/06 Webinaire exceptionnel : le secret d'une entreprise orientée données, avec Apache Cassandra
-
Podcast: Ramzi Larbi, fondateur de VA2CS
-
[Promotion] Livre Blanc Alteryx : La science des données en pratique
-
Maîtriser ses données sur le Cloud : l'ESILV apprend aux étudiants à dompter le Big Data sur 120 machines
-
07/11 Webinaire DataRobot : Mise en place conjointe du machine learning entre data scientists et opérationnels