Qu’est-ce que le « big data » ?
A mon avis, pas grand chose de nouveau, un concept marketing comme savent en inventer les hommes de l’art américains, prompts à changer de braquet dès qu’un concept s’érode quelque peu afin de se relancer sur le suivant.
D’ailleurs, sait-on réellement de quoi l’on parle ? La définition donnée par les internautes alimentant Wikipédia est pour le moins sibylline : « Big data are datasets that grow so large that they become awkward to work with using on-hand database management tools », ce que l’on peut traduire par « Les big data sont des ensembles de données qui ont tellement grandi qu’il devient maladroit de les manipuler avec les outils existants de manipulation de données »… qu’y a-t-il de réellement nouveau dans cela ?
Premier point, aucune mention d’un chiffre, d’une valeur, qui permettrait d’établir une frontière qui dépassée vous fait entrer dans l’environnement des « big data ». Aucun chiffre donc alors même que les capacités standard des systèmes d’information ne font que croître. Et que le « big data » n’est « big » qu’à un instant T de son existence, et devient classique quelques mois ou années après. La semaine dernière j’ai eu la chance de rencontrer [Eldon C. Hall]url: http://en.wikipedia.org/wiki/Eldon_Hall, l’homme qui a développé le calculateur de guidage de la capsule Apollo en 1966. Contraint alors de faire tenir son programme de guidage dans 36 Ko de mémoire morte et ne disposant que de 2 Ko de mémoire vive, une calculatrice programme de 64 Ko lui aurait certainement semblé être une « big data ». Quant à un iPhone de 64 Go, il aurait relevé du délire le plus complet. Lorsque Teradata a choisi son nom, en 1979, l’idée même du « terabyte » était un objectif, que les fondateurs espéraient bien atteindre, mais sans savoir à quelle échéance leurs clients y parviendraient en nombre. De là à imaginer que le prix du disque baisserait à ce point qu’un disque de cette capacité serait accessible en 2011 aux particuliers pour moins de 100 euros…
Aujourd’hui le Petaoctet est dépassé par plusieurs entreprises et le Zettaoctet est en ligne de mire. On est donc toujours le « big data » de quelqu’un d’autre. Et cette croissance n’a aucune raison valable de ralentir ; votre PC sera peut-être équipé dans quelques années d’un disque de 1 Po sans que cela ne vous choque outre mesure.
Il n’y a donc aucun chiffre précis qui vous permet d’affirmer que vous êtes entré dans la catégorie du « big data » ou pas.
D’ailleurs, sait-on réellement de quoi l’on parle ? La définition donnée par les internautes alimentant Wikipédia est pour le moins sibylline : « Big data are datasets that grow so large that they become awkward to work with using on-hand database management tools », ce que l’on peut traduire par « Les big data sont des ensembles de données qui ont tellement grandi qu’il devient maladroit de les manipuler avec les outils existants de manipulation de données »… qu’y a-t-il de réellement nouveau dans cela ?
Premier point, aucune mention d’un chiffre, d’une valeur, qui permettrait d’établir une frontière qui dépassée vous fait entrer dans l’environnement des « big data ». Aucun chiffre donc alors même que les capacités standard des systèmes d’information ne font que croître. Et que le « big data » n’est « big » qu’à un instant T de son existence, et devient classique quelques mois ou années après. La semaine dernière j’ai eu la chance de rencontrer [Eldon C. Hall]url: http://en.wikipedia.org/wiki/Eldon_Hall, l’homme qui a développé le calculateur de guidage de la capsule Apollo en 1966. Contraint alors de faire tenir son programme de guidage dans 36 Ko de mémoire morte et ne disposant que de 2 Ko de mémoire vive, une calculatrice programme de 64 Ko lui aurait certainement semblé être une « big data ». Quant à un iPhone de 64 Go, il aurait relevé du délire le plus complet. Lorsque Teradata a choisi son nom, en 1979, l’idée même du « terabyte » était un objectif, que les fondateurs espéraient bien atteindre, mais sans savoir à quelle échéance leurs clients y parviendraient en nombre. De là à imaginer que le prix du disque baisserait à ce point qu’un disque de cette capacité serait accessible en 2011 aux particuliers pour moins de 100 euros…
Aujourd’hui le Petaoctet est dépassé par plusieurs entreprises et le Zettaoctet est en ligne de mire. On est donc toujours le « big data » de quelqu’un d’autre. Et cette croissance n’a aucune raison valable de ralentir ; votre PC sera peut-être équipé dans quelques années d’un disque de 1 Po sans que cela ne vous choque outre mesure.
Il n’y a donc aucun chiffre précis qui vous permet d’affirmer que vous êtes entré dans la catégorie du « big data » ou pas.
"Big Data" sur Google Trends
Une recherche rapide sur Google Trends nous apprend (voir graphique ci-dessus) que le concept de « big data » est apparu sur la toile mi-2010 et qu’à ce jour un peu plus de trois millions de pages y font référence. Plus étonnant il semble que l’Inde soit fortement créateur de contenus autour du « big data », plus encore que les Etats-Unis. Réelle information ou incohérence de Google Trends ? C’est la région de San Francisco et donc la Silicon Valley qui génèrent le plus de citations de ce concept. Et en ce qui concerne les langues, bien sur l’anglais est en tête, mais on parle aussi beaucoup de big data dans des articles en néerlandais, en allemand, en chinois… le français n’arrive qu’à la septième place. Et entre nous, ce paragraphe qui s’appuie sur une simple requête Google Trends est un bon exemple de recherche sur des « big data » !
Pour quels types de données ?
Là encore le concept de big data n’est pas lié à un type de données en particulier. Les opérateurs téléphoniques, la grande distribution, les banques, manipulent depuis longtemps de gros volumes de données structurées. Ces manipulations n’ont donc rien de nouveaux pour ces entreprises. Certes sont apparus récemment des services générateurs de gros volumes de données non-structurées, en particulier les réseaux sociaux, et encore plus précisément Facebook. Mais les besoins d’une seule entreprise ne font pas un marché, loin de là. Sans doute la notion de « big data » recouvre-t-elle les besoins futurs d’entreprises qui auront pris conscience de la valeur que leurs données non-structurées recèle et qui souhaiteront en tirer profit. Analyse du contenu des emails, des conversations audio d’un centre d’appels, des images collectées dans un magasin pour décortiquer le comportement des clients, etc. Les idées ne manquent pas autour du stockage et de l’analyse de ces données non-structurées. Et le potentiel d’informations à valeur ajoutée est énorme. Mais qui aujourd’hui parmi les grandes entreprises sait mettre les moyens pour collecter, conserver et analyser ces téraoctets de données quotidiennes ? Et quels outils savent réellement les analyser. Même parmi les éditeurs qui se réclament de cette mouvance du big data, la quasi-totalité ne sait en réalité qu’analyser des données structurées.
Autres articles
-
[Promotion] Livre Blanc Alteryx : La science des données en pratique
-
Maîtriser ses données sur le Cloud : l'ESILV apprend aux étudiants à dompter le Big Data sur 120 machines
-
De quelle façon trois générations de disques durs Toshiba ont aidé le plus grand laboratoire de physique du monde à conserver, chaque seconde, des centaines de téraoctets de données générées par les expériences du LHC
-
Big Data & Big Brother : de l’intérêt de connaître notre ADN
-
Livre : Big Data, le traitement streaming et temps réel des données