Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Big Data : on n’attire pas les mouches avec du vinaigre


Rédigé par le 27 Juin 2011



Du point de vue des outils, quoi de neuf ?

Et bien pas grand-chose. Car comme je l’évoquais plus haut, la gestion de téraoctets de données n’a véritablement rien de nouveau. Et quelques soient les plates-formes concernées, les expériences datent de plusieurs années. Teradata, Netezza, Oracle, IBM et même Microsoft, je ne crois pas que ces éditeurs soient réellement inquiétés à la vue d’un cahier des charges demandant de gérer quelques téraoctets. Du côté des outils d’intégration – car il faut bien les collecter – je ne pense pas qu’Informatica par exemple boude un besoin client de manipulation de plusieurs centaines de Go par jour. Quant aux outils d’analyse, il est rare que des jeux de données de plusieurs Téraoctets soient analysés en une passe, mais je pense que Teradata, SAS, Kxen, IBM et d’autres encore n’auront pas de difficultés à se lancer dans l’aventure.
Si ce concept de « big data » est déjà couvert par la majorité des outils existants, pourquoi aurait-on besoin d’un nouveau « buzz word », d’un nouveau mot-clef ? A moins que ce ne soit juste pour relancer l’intérêt des entreprises pour ces outils et tenter de satisfaire les objectifs de croissance à deux chiffres des éditeurs concernés, ou des éditeurs oubliés qui aimeraient être plus souvent consultés.
Autre hypothèse, la prise de conscience par les éditeurs « small data » - moi aussi je peux inventer des mots – du marché que représente l’analyse des gros volumes de données. Il est d’ailleurs intéressant de constater que le monde de l’open source s’appuie beaucoup sur le concept de « big data » : Greenplum, InfiniDB, Talend, Jaspersoft… curieux…

Quelles entreprises sont réellement concernées ?

C’est sans doute la question que j’aurais du me poser en premier. Une fois écartées les entreprises qui font depuis des années du « big data » sans le crier sur les toits : banques, assurances, grande distribution, transport, télécommunications ; une fois écartées les grands acteurs de l’Internet dont l’activité s’est développée autour de la donnée : Apple, eBay, Amazon… il reste quelques nouveaux entrants (nous avons déjà parlé de Facebook) et surtout beaucoup d’entreprises où la culture de la donnée n’est pas encore véritablement développée. Et leur vendre des outils « big data » c’est bien ; leur apprendre ce qu’ils pourront en faire c’est encore mieux. Et comme souvent en informatique, une fois passée l’excitation de la phase d’achat, il va falloir apprendre à utiliser l’outil et surtout à s’appuyer sur les résultats obtenus.
Car c’est dans cette dernière étape que la réalité reprend ses droits. Découvrir des comportements clients sans être en mesure de d’adapter son mix marketing, calculer la rentabilité de son couple produit/client sans être en mesure de renoncer aux moins rentables ; découvrir de nouveaux besoins, sans savoir y répondre par une nouvelle offre ; tout cela situe le ROI du big data dans l’exploitation des informations découvertes non dans l’outil en lui-même.

Et si le big data se justifiait surtout dans l’analyse des données publiques ?

Comme le propose assez justement Henri Verdier dans un article paru sur le site Owni.fr, le concept de big data consisterait à « faire du sens à grande échelle ». C’est à dire que son usage se révèlerait dans l’analyse des données publiées chaque jour sur le réseau et impossible à analyser actuellement, en raison d’une part de leur volume, de leur volatilité et de leur absence totale de normalisation. Pour des journalistes, des analystes de tendances, des chercheurs, le web et les contributions des internautes sont en effet une mine d’informations. Y picorer conduit à l’approximation, mais brasser ces données, les torréfier pour en détecter les grandes tendances, là il y a quelque chose ! On réservera sans doute la réelle valeur ajoutée du concept de big data à ces analyses. Et sans doute l’apparition d’outils d’analyse des données non structurées profitera-t-elle ensuite aux entreprises. Ensuite !

En conclusion s’il est une force qu’il faut reconnaître au concept de « big data » c’est celui de la concision de la langue anglaise et de la force de frappe des concepts américains. Pour des raisons toujours aussi nébuleuses, il est en effet plus vendeur d’être un spécialiste du « big data » que des « gros volumes de données »… Le rêve, ou le complexe, américain continuent en 2011 de faire des ravages. Plions nous donc avec autodérision à cette particularité nationale et reconnaissons que la croissance rapide des volumes de données décisionnelles va avoir un impact significatif sur les outils que nous utiliserons, et que le terme de « big data », s’il ne reflète aucune révolution, permet néanmoins de marquer cette prise de conscience.

1 2





Commentaires

1.Posté par Francois Nguyen le 27/06/2011 10:32
C'est vrai qu'au début... ca sent le marketing à plein nez !

Mais quand on creuse, on en vient à la question : mais comment fait un facebook avec 15 to de données tous les jours dans un dataware de 1 000 to ?

Et c'est là que cela devient intéressant. On voit que les solutions sont totalement différentes de la base de données relationnelle même massivement parallèle. Et de noter qu'elles :

- viennent plutôt du monde de l'open source (et donc loin de ceux qui font le buzz)
- sont à base de gestion de fichiers avec des traitements batchs
- sont à base d'informatique distribuée façon google (avec des petits serveurs)

Même dans les entreprises taggées "big data naturellement"... Il faut savoir que beaucoup de données sont mises à la poubelle ou filtrer faute de pouvoir les traiter.

Un bon exemple, ce sont les données de navigation dans un site web pour une entreprise d'E-Commerce. Un google analytics est d'une rare pauvreté si l'on regarde la masse de données et la richesse de contenu. Et pourtant, c'est une application remarquable !

Cela pose au moins le débat de comment traiter ces données, de leur représentation et de comment les rendre utiles !

Sur le sujet de la représentation, c'est pile le sujet du forum du 6 juillet sur la data visualization !







2.Posté par Michel Bruley le 28/06/2011 12:59
Philippe,

Que le terme Big Data soit vague, qu’il ne fasse référence à rien de précis en termes de volumes de données, de type de données, d’outils, etc. j’en conviens.

Mais cependant le monde du Décisionnel est bien le théâtre de nombreuses nouveautés : arrivée depuis 2005 de nouveaux acteurs (surtout dans le monde open source), nombreux rachats (notamment de nouveaux arrivants comme Teradata rachetant Aster Data), nombreuses nouvelles plateformes matérielles innovantes, développement d’offres NoSql, nouvelles demandes des utilisateurs en traitement de données « multi-unstructured », etc.

Il est difficile de prédire la longévité du terme Big Data, mais du fait de toutes les évolutions actuelles il est possible que le Décisionnel entre dans une nouvelle étape.

Nouvelle étape nouveau terme !?

3.Posté par Philippe Nieuwbourg le 28/06/2011 13:20
@ Michel
"Nouvelle étape nouveau terme !?"... n'est-ce pas justement le mal dont souffre le secteur informatique, cette volonté de donner l'impression que tout change alors que les choses évoluent ?
Pourquoi faudrait-il un nouveau terme si l'on franchit une nouvelle étape, tout en répondant aux mêmes objectifs ?

4.Posté par Michel Bruley le 28/06/2011 14:00
Philippe,

« Pourquoi un nouveau terme ? »

De façon non limitative :
Pour attirer l’attention.
Pour renouveler la forme et pallier à l’usure des mots.
Pour donner une seconde chance à des inventions dont les usages n’ont pas décollé.
Pour valoriser des différences.
Pour sortir des mots clés habituels et élargir son lectorat.
Pour se démarquer des acteurs historiques.
Pour donner du travail à ceux qui vivent de la COM. (A noter que j’en fais partie).

5.Posté par Philippe Nieuwbourg le 28/06/2011 14:07
@ Michel
Donc aucune raison vraiment valable à part la dernière, qui nous concerne tous les deux :-)

6.Posté par Francois Nguyen le 29/06/2011 17:47
"parce qu'on y voit des acteurs totalement différents des acteurs historiques"

http://pro.clubic.com/entreprises/yahoo/actualite-431630-yahoo-hortonworks-distribuer-hadoop.html
http://www.lemagit.fr/article/yahoo-opensource-hadoop/9054/1/avec-hortonworks-yahoo-devient-fournisseur-solutions-pour-big-data/

La phrase clé " nous estimons que d'ici cinq ans la moitié des données à travers le monde seront hébergées sur des serveurs Hadoop"... Il peut se tromper lourdement le monsieur mais pouvait-on imaginer il y'a un an que des Ex de Yahoo viendrait jouer sur le marché de la BI ?



7.Posté par François Nguyen le 18/07/2011 23:42
Un petit article pour relancer le débat ;-)

http://post-it-bi.blogspot.com/2011/07/stories-behind-elegant-data-solutions.html

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store