Du point de vue des outils, quoi de neuf ?
Et bien pas grand-chose. Car comme je l’évoquais plus haut, la gestion de téraoctets de données n’a véritablement rien de nouveau. Et quelques soient les plates-formes concernées, les expériences datent de plusieurs années. Teradata, Netezza, Oracle, IBM et même Microsoft, je ne crois pas que ces éditeurs soient réellement inquiétés à la vue d’un cahier des charges demandant de gérer quelques téraoctets. Du côté des outils d’intégration – car il faut bien les collecter – je ne pense pas qu’Informatica par exemple boude un besoin client de manipulation de plusieurs centaines de Go par jour. Quant aux outils d’analyse, il est rare que des jeux de données de plusieurs Téraoctets soient analysés en une passe, mais je pense que Teradata, SAS, Kxen, IBM et d’autres encore n’auront pas de difficultés à se lancer dans l’aventure.
Si ce concept de « big data » est déjà couvert par la majorité des outils existants, pourquoi aurait-on besoin d’un nouveau « buzz word », d’un nouveau mot-clef ? A moins que ce ne soit juste pour relancer l’intérêt des entreprises pour ces outils et tenter de satisfaire les objectifs de croissance à deux chiffres des éditeurs concernés, ou des éditeurs oubliés qui aimeraient être plus souvent consultés.
Autre hypothèse, la prise de conscience par les éditeurs « small data » - moi aussi je peux inventer des mots – du marché que représente l’analyse des gros volumes de données. Il est d’ailleurs intéressant de constater que le monde de l’open source s’appuie beaucoup sur le concept de « big data » : Greenplum, InfiniDB, Talend, Jaspersoft… curieux…
Si ce concept de « big data » est déjà couvert par la majorité des outils existants, pourquoi aurait-on besoin d’un nouveau « buzz word », d’un nouveau mot-clef ? A moins que ce ne soit juste pour relancer l’intérêt des entreprises pour ces outils et tenter de satisfaire les objectifs de croissance à deux chiffres des éditeurs concernés, ou des éditeurs oubliés qui aimeraient être plus souvent consultés.
Autre hypothèse, la prise de conscience par les éditeurs « small data » - moi aussi je peux inventer des mots – du marché que représente l’analyse des gros volumes de données. Il est d’ailleurs intéressant de constater que le monde de l’open source s’appuie beaucoup sur le concept de « big data » : Greenplum, InfiniDB, Talend, Jaspersoft… curieux…
Quelles entreprises sont réellement concernées ?
C’est sans doute la question que j’aurais du me poser en premier. Une fois écartées les entreprises qui font depuis des années du « big data » sans le crier sur les toits : banques, assurances, grande distribution, transport, télécommunications ; une fois écartées les grands acteurs de l’Internet dont l’activité s’est développée autour de la donnée : Apple, eBay, Amazon… il reste quelques nouveaux entrants (nous avons déjà parlé de Facebook) et surtout beaucoup d’entreprises où la culture de la donnée n’est pas encore véritablement développée. Et leur vendre des outils « big data » c’est bien ; leur apprendre ce qu’ils pourront en faire c’est encore mieux. Et comme souvent en informatique, une fois passée l’excitation de la phase d’achat, il va falloir apprendre à utiliser l’outil et surtout à s’appuyer sur les résultats obtenus.
Car c’est dans cette dernière étape que la réalité reprend ses droits. Découvrir des comportements clients sans être en mesure de d’adapter son mix marketing, calculer la rentabilité de son couple produit/client sans être en mesure de renoncer aux moins rentables ; découvrir de nouveaux besoins, sans savoir y répondre par une nouvelle offre ; tout cela situe le ROI du big data dans l’exploitation des informations découvertes non dans l’outil en lui-même.
Car c’est dans cette dernière étape que la réalité reprend ses droits. Découvrir des comportements clients sans être en mesure de d’adapter son mix marketing, calculer la rentabilité de son couple produit/client sans être en mesure de renoncer aux moins rentables ; découvrir de nouveaux besoins, sans savoir y répondre par une nouvelle offre ; tout cela situe le ROI du big data dans l’exploitation des informations découvertes non dans l’outil en lui-même.
Et si le big data se justifiait surtout dans l’analyse des données publiques ?
Comme le propose assez justement Henri Verdier dans un article paru sur le site Owni.fr, le concept de big data consisterait à « faire du sens à grande échelle ». C’est à dire que son usage se révèlerait dans l’analyse des données publiées chaque jour sur le réseau et impossible à analyser actuellement, en raison d’une part de leur volume, de leur volatilité et de leur absence totale de normalisation. Pour des journalistes, des analystes de tendances, des chercheurs, le web et les contributions des internautes sont en effet une mine d’informations. Y picorer conduit à l’approximation, mais brasser ces données, les torréfier pour en détecter les grandes tendances, là il y a quelque chose ! On réservera sans doute la réelle valeur ajoutée du concept de big data à ces analyses. Et sans doute l’apparition d’outils d’analyse des données non structurées profitera-t-elle ensuite aux entreprises. Ensuite !
En conclusion s’il est une force qu’il faut reconnaître au concept de « big data » c’est celui de la concision de la langue anglaise et de la force de frappe des concepts américains. Pour des raisons toujours aussi nébuleuses, il est en effet plus vendeur d’être un spécialiste du « big data » que des « gros volumes de données »… Le rêve, ou le complexe, américain continuent en 2011 de faire des ravages. Plions nous donc avec autodérision à cette particularité nationale et reconnaissons que la croissance rapide des volumes de données décisionnelles va avoir un impact significatif sur les outils que nous utiliserons, et que le terme de « big data », s’il ne reflète aucune révolution, permet néanmoins de marquer cette prise de conscience.
Autres articles
-
[Promotion] Livre Blanc Alteryx : La science des données en pratique
-
Maîtriser ses données sur le Cloud : l'ESILV apprend aux étudiants à dompter le Big Data sur 120 machines
-
De quelle façon trois générations de disques durs Toshiba ont aidé le plus grand laboratoire de physique du monde à conserver, chaque seconde, des centaines de téraoctets de données générées par les expériences du LHC
-
Big Data & Big Brother : de l’intérêt de connaître notre ADN
-
Livre : Big Data, le traitement streaming et temps réel des données