Big Data : on n’attire pas les mouches avec du vinaigre


Rédigé par le 27 Juin 2011

« Les promesses n’engagent que ceux qui y croient », c’est un peu le commentaire cinglant auquel s’exposent les entreprises qui s’engageraient trop rapidement pour les nouvelles solutions de « big data » proposées depuis quelques mois. Car derrière un concept à mes yeux purement marketing, de plus mal défini, les outils réellement novateurs sont rares… pour ne pas dire absents. Sur le long terme cependant de nouveaux besoins commencent à émerger.



Qu’est-ce que le « big data » ?

A mon avis, pas grand chose de nouveau, un concept marketing comme savent en inventer les hommes de l’art américains, prompts à changer de braquet dès qu’un concept s’érode quelque peu afin de se relancer sur le suivant.
D’ailleurs, sait-on réellement de quoi l’on parle ? La définition donnée par les internautes alimentant Wikipédia est pour le moins sibylline : « Big data are datasets that grow so large that they become awkward to work with using on-hand database management tools », ce que l’on peut traduire par « Les big data sont des ensembles de données qui ont tellement grandi qu’il devient maladroit de les manipuler avec les outils existants de manipulation de données »… qu’y a-t-il de réellement nouveau dans cela ?
Premier point, aucune mention d’un chiffre, d’une valeur, qui permettrait d’établir une frontière qui dépassée vous fait entrer dans l’environnement des « big data ». Aucun chiffre donc alors même que les capacités standard des systèmes d’information ne font que croître. Et que le « big data » n’est « big » qu’à un instant T de son existence, et devient classique quelques mois ou années après. La semaine dernière j’ai eu la chance de rencontrer [Eldon C. Hall]url: http://en.wikipedia.org/wiki/Eldon_Hall, l’homme qui a développé le calculateur de guidage de la capsule Apollo en 1966. Contraint alors de faire tenir son programme de guidage dans 36 Ko de mémoire morte et ne disposant que de 2 Ko de mémoire vive, une calculatrice programme de 64 Ko lui aurait certainement semblé être une « big data ». Quant à un iPhone de 64 Go, il aurait relevé du délire le plus complet. Lorsque Teradata a choisi son nom, en 1979, l’idée même du « terabyte » était un objectif, que les fondateurs espéraient bien atteindre, mais sans savoir à quelle échéance leurs clients y parviendraient en nombre. De là à imaginer que le prix du disque baisserait à ce point qu’un disque de cette capacité serait accessible en 2011 aux particuliers pour moins de 100 euros…
Aujourd’hui le Petaoctet est dépassé par plusieurs entreprises et le Zettaoctet est en ligne de mire. On est donc toujours le « big data » de quelqu’un d’autre. Et cette croissance n’a aucune raison valable de ralentir ; votre PC sera peut-être équipé dans quelques années d’un disque de 1 Po sans que cela ne vous choque outre mesure.
Il n’y a donc aucun chiffre précis qui vous permet d’affirmer que vous êtes entré dans la catégorie du « big data » ou pas.

"Big Data" sur Google Trends
Une recherche rapide sur Google Trends nous apprend (voir graphique ci-dessus) que le concept de « big data » est apparu sur la toile mi-2010 et qu’à ce jour un peu plus de trois millions de pages y font référence. Plus étonnant il semble que l’Inde soit fortement créateur de contenus autour du « big data », plus encore que les Etats-Unis. Réelle information ou incohérence de Google Trends ? C’est la région de San Francisco et donc la Silicon Valley qui génèrent le plus de citations de ce concept. Et en ce qui concerne les langues, bien sur l’anglais est en tête, mais on parle aussi beaucoup de big data dans des articles en néerlandais, en allemand, en chinois… le français n’arrive qu’à la septième place. Et entre nous, ce paragraphe qui s’appuie sur une simple requête Google Trends est un bon exemple de recherche sur des « big data » !

Pour quels types de données ?

Là encore le concept de big data n’est pas lié à un type de données en particulier. Les opérateurs téléphoniques, la grande distribution, les banques, manipulent depuis longtemps de gros volumes de données structurées. Ces manipulations n’ont donc rien de nouveaux pour ces entreprises. Certes sont apparus récemment des services générateurs de gros volumes de données non-structurées, en particulier les réseaux sociaux, et encore plus précisément Facebook. Mais les besoins d’une seule entreprise ne font pas un marché, loin de là. Sans doute la notion de « big data » recouvre-t-elle les besoins futurs d’entreprises qui auront pris conscience de la valeur que leurs données non-structurées recèle et qui souhaiteront en tirer profit. Analyse du contenu des emails, des conversations audio d’un centre d’appels, des images collectées dans un magasin pour décortiquer le comportement des clients, etc. Les idées ne manquent pas autour du stockage et de l’analyse de ces données non-structurées. Et le potentiel d’informations à valeur ajoutée est énorme. Mais qui aujourd’hui parmi les grandes entreprises sait mettre les moyens pour collecter, conserver et analyser ces téraoctets de données quotidiennes ? Et quels outils savent réellement les analyser. Même parmi les éditeurs qui se réclament de cette mouvance du big data, la quasi-totalité ne sait en réalité qu’analyser des données structurées.

Du point de vue des outils, quoi de neuf ?

Et bien pas grand-chose. Car comme je l’évoquais plus haut, la gestion de téraoctets de données n’a véritablement rien de nouveau. Et quelques soient les plates-formes concernées, les expériences datent de plusieurs années. Teradata, Netezza, Oracle, IBM et même Microsoft, je ne crois pas que ces éditeurs soient réellement inquiétés à la vue d’un cahier des charges demandant de gérer quelques téraoctets. Du côté des outils d’intégration – car il faut bien les collecter – je ne pense pas qu’Informatica par exemple boude un besoin client de manipulation de plusieurs centaines de Go par jour. Quant aux outils d’analyse, il est rare que des jeux de données de plusieurs Téraoctets soient analysés en une passe, mais je pense que Teradata, SAS, Kxen, IBM et d’autres encore n’auront pas de difficultés à se lancer dans l’aventure.
Si ce concept de « big data » est déjà couvert par la majorité des outils existants, pourquoi aurait-on besoin d’un nouveau « buzz word », d’un nouveau mot-clef ? A moins que ce ne soit juste pour relancer l’intérêt des entreprises pour ces outils et tenter de satisfaire les objectifs de croissance à deux chiffres des éditeurs concernés, ou des éditeurs oubliés qui aimeraient être plus souvent consultés.
Autre hypothèse, la prise de conscience par les éditeurs « small data » - moi aussi je peux inventer des mots – du marché que représente l’analyse des gros volumes de données. Il est d’ailleurs intéressant de constater que le monde de l’open source s’appuie beaucoup sur le concept de « big data » : Greenplum, InfiniDB, Talend, Jaspersoft… curieux…

Quelles entreprises sont réellement concernées ?

C’est sans doute la question que j’aurais du me poser en premier. Une fois écartées les entreprises qui font depuis des années du « big data » sans le crier sur les toits : banques, assurances, grande distribution, transport, télécommunications ; une fois écartées les grands acteurs de l’Internet dont l’activité s’est développée autour de la donnée : Apple, eBay, Amazon… il reste quelques nouveaux entrants (nous avons déjà parlé de Facebook) et surtout beaucoup d’entreprises où la culture de la donnée n’est pas encore véritablement développée. Et leur vendre des outils « big data » c’est bien ; leur apprendre ce qu’ils pourront en faire c’est encore mieux. Et comme souvent en informatique, une fois passée l’excitation de la phase d’achat, il va falloir apprendre à utiliser l’outil et surtout à s’appuyer sur les résultats obtenus.
Car c’est dans cette dernière étape que la réalité reprend ses droits. Découvrir des comportements clients sans être en mesure de d’adapter son mix marketing, calculer la rentabilité de son couple produit/client sans être en mesure de renoncer aux moins rentables ; découvrir de nouveaux besoins, sans savoir y répondre par une nouvelle offre ; tout cela situe le ROI du big data dans l’exploitation des informations découvertes non dans l’outil en lui-même.

Et si le big data se justifiait surtout dans l’analyse des données publiques ?

Comme le propose assez justement Henri Verdier dans un article paru sur le site Owni.fr, le concept de big data consisterait à « faire du sens à grande échelle ». C’est à dire que son usage se révèlerait dans l’analyse des données publiées chaque jour sur le réseau et impossible à analyser actuellement, en raison d’une part de leur volume, de leur volatilité et de leur absence totale de normalisation. Pour des journalistes, des analystes de tendances, des chercheurs, le web et les contributions des internautes sont en effet une mine d’informations. Y picorer conduit à l’approximation, mais brasser ces données, les torréfier pour en détecter les grandes tendances, là il y a quelque chose ! On réservera sans doute la réelle valeur ajoutée du concept de big data à ces analyses. Et sans doute l’apparition d’outils d’analyse des données non structurées profitera-t-elle ensuite aux entreprises. Ensuite !

En conclusion s’il est une force qu’il faut reconnaître au concept de « big data » c’est celui de la concision de la langue anglaise et de la force de frappe des concepts américains. Pour des raisons toujours aussi nébuleuses, il est en effet plus vendeur d’être un spécialiste du « big data » que des « gros volumes de données »… Le rêve, ou le complexe, américain continuent en 2011 de faire des ravages. Plions nous donc avec autodérision à cette particularité nationale et reconnaissons que la croissance rapide des volumes de données décisionnelles va avoir un impact significatif sur les outils que nous utiliserons, et que le terme de « big data », s’il ne reflète aucune révolution, permet néanmoins de marquer cette prise de conscience.



Dans la même rubrique :