Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Big Data : on n’attire pas les mouches avec du vinaigre


Rédigé par le 27 Juin 2011

« Les promesses n’engagent que ceux qui y croient », c’est un peu le commentaire cinglant auquel s’exposent les entreprises qui s’engageraient trop rapidement pour les nouvelles solutions de « big data » proposées depuis quelques mois. Car derrière un concept à mes yeux purement marketing, de plus mal défini, les outils réellement novateurs sont rares… pour ne pas dire absents. Sur le long terme cependant de nouveaux besoins commencent à émerger.



Qu’est-ce que le « big data » ?

Big Data : on n’attire pas les mouches avec du vinaigre
A mon avis, pas grand chose de nouveau, un concept marketing comme savent en inventer les hommes de l’art américains, prompts à changer de braquet dès qu’un concept s’érode quelque peu afin de se relancer sur le suivant.
D’ailleurs, sait-on réellement de quoi l’on parle ? La définition donnée par les internautes alimentant Wikipédia est pour le moins sibylline : « Big data are datasets that grow so large that they become awkward to work with using on-hand database management tools », ce que l’on peut traduire par « Les big data sont des ensembles de données qui ont tellement grandi qu’il devient maladroit de les manipuler avec les outils existants de manipulation de données »… qu’y a-t-il de réellement nouveau dans cela ?
Premier point, aucune mention d’un chiffre, d’une valeur, qui permettrait d’établir une frontière qui dépassée vous fait entrer dans l’environnement des « big data ». Aucun chiffre donc alors même que les capacités standard des systèmes d’information ne font que croître. Et que le « big data » n’est « big » qu’à un instant T de son existence, et devient classique quelques mois ou années après. La semaine dernière j’ai eu la chance de rencontrer [Eldon C. Hall]url: http://en.wikipedia.org/wiki/Eldon_Hall, l’homme qui a développé le calculateur de guidage de la capsule Apollo en 1966. Contraint alors de faire tenir son programme de guidage dans 36 Ko de mémoire morte et ne disposant que de 2 Ko de mémoire vive, une calculatrice programme de 64 Ko lui aurait certainement semblé être une « big data ». Quant à un iPhone de 64 Go, il aurait relevé du délire le plus complet. Lorsque Teradata a choisi son nom, en 1979, l’idée même du « terabyte » était un objectif, que les fondateurs espéraient bien atteindre, mais sans savoir à quelle échéance leurs clients y parviendraient en nombre. De là à imaginer que le prix du disque baisserait à ce point qu’un disque de cette capacité serait accessible en 2011 aux particuliers pour moins de 100 euros…
Aujourd’hui le Petaoctet est dépassé par plusieurs entreprises et le Zettaoctet est en ligne de mire. On est donc toujours le « big data » de quelqu’un d’autre. Et cette croissance n’a aucune raison valable de ralentir ; votre PC sera peut-être équipé dans quelques années d’un disque de 1 Po sans que cela ne vous choque outre mesure.
Il n’y a donc aucun chiffre précis qui vous permet d’affirmer que vous êtes entré dans la catégorie du « big data » ou pas.

"Big Data" sur Google Trends
"Big Data" sur Google Trends
Une recherche rapide sur Google Trends nous apprend (voir graphique ci-dessus) que le concept de « big data » est apparu sur la toile mi-2010 et qu’à ce jour un peu plus de trois millions de pages y font référence. Plus étonnant il semble que l’Inde soit fortement créateur de contenus autour du « big data », plus encore que les Etats-Unis. Réelle information ou incohérence de Google Trends ? C’est la région de San Francisco et donc la Silicon Valley qui génèrent le plus de citations de ce concept. Et en ce qui concerne les langues, bien sur l’anglais est en tête, mais on parle aussi beaucoup de big data dans des articles en néerlandais, en allemand, en chinois… le français n’arrive qu’à la septième place. Et entre nous, ce paragraphe qui s’appuie sur une simple requête Google Trends est un bon exemple de recherche sur des « big data » !

Pour quels types de données ?

Là encore le concept de big data n’est pas lié à un type de données en particulier. Les opérateurs téléphoniques, la grande distribution, les banques, manipulent depuis longtemps de gros volumes de données structurées. Ces manipulations n’ont donc rien de nouveaux pour ces entreprises. Certes sont apparus récemment des services générateurs de gros volumes de données non-structurées, en particulier les réseaux sociaux, et encore plus précisément Facebook. Mais les besoins d’une seule entreprise ne font pas un marché, loin de là. Sans doute la notion de « big data » recouvre-t-elle les besoins futurs d’entreprises qui auront pris conscience de la valeur que leurs données non-structurées recèle et qui souhaiteront en tirer profit. Analyse du contenu des emails, des conversations audio d’un centre d’appels, des images collectées dans un magasin pour décortiquer le comportement des clients, etc. Les idées ne manquent pas autour du stockage et de l’analyse de ces données non-structurées. Et le potentiel d’informations à valeur ajoutée est énorme. Mais qui aujourd’hui parmi les grandes entreprises sait mettre les moyens pour collecter, conserver et analyser ces téraoctets de données quotidiennes ? Et quels outils savent réellement les analyser. Même parmi les éditeurs qui se réclament de cette mouvance du big data, la quasi-totalité ne sait en réalité qu’analyser des données structurées.




Commentaires

1.Posté par Francois Nguyen le 27/06/2011 10:32
C'est vrai qu'au début... ca sent le marketing à plein nez !

Mais quand on creuse, on en vient à la question : mais comment fait un facebook avec 15 to de données tous les jours dans un dataware de 1 000 to ?

Et c'est là que cela devient intéressant. On voit que les solutions sont totalement différentes de la base de données relationnelle même massivement parallèle. Et de noter qu'elles :

- viennent plutôt du monde de l'open source (et donc loin de ceux qui font le buzz)
- sont à base de gestion de fichiers avec des traitements batchs
- sont à base d'informatique distribuée façon google (avec des petits serveurs)

Même dans les entreprises taggées "big data naturellement"... Il faut savoir que beaucoup de données sont mises à la poubelle ou filtrer faute de pouvoir les traiter.

Un bon exemple, ce sont les données de navigation dans un site web pour une entreprise d'E-Commerce. Un google analytics est d'une rare pauvreté si l'on regarde la masse de données et la richesse de contenu. Et pourtant, c'est une application remarquable !

Cela pose au moins le débat de comment traiter ces données, de leur représentation et de comment les rendre utiles !

Sur le sujet de la représentation, c'est pile le sujet du forum du 6 juillet sur la data visualization !







2.Posté par Michel Bruley le 28/06/2011 12:59
Philippe,

Que le terme Big Data soit vague, qu’il ne fasse référence à rien de précis en termes de volumes de données, de type de données, d’outils, etc. j’en conviens.

Mais cependant le monde du Décisionnel est bien le théâtre de nombreuses nouveautés : arrivée depuis 2005 de nouveaux acteurs (surtout dans le monde open source), nombreux rachats (notamment de nouveaux arrivants comme Teradata rachetant Aster Data), nombreuses nouvelles plateformes matérielles innovantes, développement d’offres NoSql, nouvelles demandes des utilisateurs en traitement de données « multi-unstructured », etc.

Il est difficile de prédire la longévité du terme Big Data, mais du fait de toutes les évolutions actuelles il est possible que le Décisionnel entre dans une nouvelle étape.

Nouvelle étape nouveau terme !?

3.Posté par Philippe Nieuwbourg le 28/06/2011 13:20
@ Michel
"Nouvelle étape nouveau terme !?"... n'est-ce pas justement le mal dont souffre le secteur informatique, cette volonté de donner l'impression que tout change alors que les choses évoluent ?
Pourquoi faudrait-il un nouveau terme si l'on franchit une nouvelle étape, tout en répondant aux mêmes objectifs ?

4.Posté par Michel Bruley le 28/06/2011 14:00
Philippe,

« Pourquoi un nouveau terme ? »

De façon non limitative :
Pour attirer l’attention.
Pour renouveler la forme et pallier à l’usure des mots.
Pour donner une seconde chance à des inventions dont les usages n’ont pas décollé.
Pour valoriser des différences.
Pour sortir des mots clés habituels et élargir son lectorat.
Pour se démarquer des acteurs historiques.
Pour donner du travail à ceux qui vivent de la COM. (A noter que j’en fais partie).

5.Posté par Philippe Nieuwbourg le 28/06/2011 14:07
@ Michel
Donc aucune raison vraiment valable à part la dernière, qui nous concerne tous les deux :-)

6.Posté par Francois Nguyen le 29/06/2011 17:47
"parce qu'on y voit des acteurs totalement différents des acteurs historiques"

http://pro.clubic.com/entreprises/yahoo/actualite-431630-yahoo-hortonworks-distribuer-hadoop.html
http://www.lemagit.fr/article/yahoo-opensource-hadoop/9054/1/avec-hortonworks-yahoo-devient-fournisseur-solutions-pour-big-data/

La phrase clé " nous estimons que d'ici cinq ans la moitié des données à travers le monde seront hébergées sur des serveurs Hadoop"... Il peut se tromper lourdement le monsieur mais pouvait-on imaginer il y'a un an que des Ex de Yahoo viendrait jouer sur le marché de la BI ?



7.Posté par François Nguyen le 18/07/2011 23:42
Un petit article pour relancer le débat ;-)

http://post-it-bi.blogspot.com/2011/07/stories-behind-elegant-data-solutions.html

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store