On va tous gagner à investir sur le Big Data !


Rédigé par Charles PARAT, Micropole le 27 Février 2013

« Dois-je y aller ou pas ? », telle est la première interrogation qu’un client se pose en réfléchissant à ce que l’exploration de tous les zettaoctets de la toile mondiale pourrait bien apporter à son business… Mais que signifie « y aller » ? Se doter de compétences sur ces sujets, oui, mais à quel prix ? Construire un « Hadoop » à domicile, remplacer les bases existantes, changer les outils d’interrogation ainsi que les principes préexistants de Data Gouvernance, voire recruter un Data Scientist ? …



Charles Parat, Directeur Recherche et Innovation, Micropole
Peu importe le résultat ! En prenant le sujet à bras le corps, chacun se posera des questions essentielles qui auraient dues être soulevées depuis longtemps sur la manière de traiter les données. La pression du Big Data aura alors l’effet bénéfique de faire évoluer à la fois les zones de confort techniques, méthodologiques et stratégiques dans lesquelles la « Business Intelligence » stagne depuis vingt ans.


Le Big Data à l’assaut des zones de confort technique

Depuis deux décennies, les volumes déjà appréciables des datawarehouses et autres diverses bases historisées sous forme de Very Large Databases (VLDB), reposent sur des principes de stockage et d’analyse créés à la même époque, et qui n’ont que très peu évolué depuis. Innovant dans les années 80, le modèle relationnel de gestion des données « en lignes », pensé pour le transactionnel, est devenu dominant et a eu pour conséquence de bloquer la diffusion des technologies émergentes.

En parallèle, le Big Data - qui existe depuis que le web existe - a été propulsé sur le devant de la scène par l’effort de normalisation initié en 2009 par la communauté Apache, lors de la création du projet Hadoop, qui représente en fait la synthèse des innovations technologiques créées par les plus grands acteurs de l’internet et du stockage massif de données depuis plus de dix ans.
Interrogeons-nous alors sur la raison pour laquelle, depuis quinze ans, ces innovations n’ont pas été utilement mises à l’épreuve afin de faire évoluer les pratiques décisionnelles ? Simplement parce que les grands fournisseurs de bases de données ont étouffé le marché sous une pensée unique, largement relayée par les analystes, avec pour objectif d’établir une stabilité du marché autour de leurs offres techniques. Un marché high-tech stable pendant 20 ans ? Qui n’en aurait pas profité ?

Alors comment se fait-il que nous puissions en parler librement aujourd’hui ? Parce qu’aujourd’hui les choses ont évolué ! Via des acquisitions et des développements, les éditeurs classiques des bases de données et d’outils d’interrogation se sont procurés des outils qui apportent enfin des réponses « officielles » à des problématiques devenues classiques. Tous ont commencé à évoluer vers les bases mémoires, en colonnes, en MPP (Massively Parallel Processing), des appliances, des techniques de Search et de « unstructured data mining», voire des distributions propres de Hadoop lui-même. Les solutions d’analyse, de statistiques et de « présentation intelligente » ont ainsi convergé pour engendrer les nouveaux concepts de machine-learning et de data visualization.

Le Big Data et ces nouvelles technologies d’analyse ont donc eu pour effet de libérer l’IT de la pensée unique du stockage relationnel « généraliste ». Ce dernier reste par ailleurs très efficace pour les processus transactionnels, mais s’avère totalement dépassé pour le stockage ou la restitution de très gros volumes structurés et à plus forte raison pour les non-structurés.
Sans vouloir tout remplacer par effet de mode et sans vouloir voir en Hadoop l’unique solution aux problèmes très divers d’analyse et de stockage des données en entreprise, il est grand temps de repenser les architectures Business Intelligence actuelles et de tirer enfin parti de cette formidable palette des « possibles » révélée par l’effet Big Data.


Le Big Data secoue les zones de confort méthodologiques

La prise en compte des besoins, la conception et la production des environnements d’analyse des données ont été emprisonnées dans la logique de « datawarehousing ». Parue aux alentours de 1990, cette logique - par ailleurs éminemment pertinente - a détourné le principe de gouvernance des données communes autour d’un sujet (référentiel à usage métier), en constituant un véritable coffre-fort hors duquel la B.I. ne peut prétendre à exploiter d’autres sources. Il en résulte une incapacité de répondre aux impératifs de « time to business » réclamés par les utilisateurs opérationnels et imposés par les utilisateurs stratégiques. La « gouvernance des données » invoquée par les DSI est par conséquent souvent devenue un frein à la performance analytique et décisionnelle de l’entreprise.
Deux conséquences négatives ont souvent été constatées : le contournement de l’IT par les utilisateurs « budgétairement autonomes », comme le sont souvent les sujets finance ou marketing, mais aussi la promotion auprès des directions métiers d’outil dits « agiles » pour pallier à ces déficiences de plateformes décisionnelles d’entreprise. Dans les deux cas, c’est un échec de la B.I. d’entreprise.

Autour du Datawarehouse, la gouvernance a été souvent définie et immédiatement figée, puis son respect est devenu une fin en soi, voire un véritable dogme. Il est clair que la gouvernance doit s’adapter aux contraintes du monde réel de l’entreprise. Une donnée qualifiée, utilisable dans des analyses métiers, mais non présente dans un datawarehouse, doit par conséquent obéir à des règles de gouvernance qui ne sont pas celles des données du DWH. Cet impératif de flexibilité se retrouve dans l’organisation « agile » en vogue aujourd’hui autour de la B.I. Or, l’agilité est surtout une affaire de culture et d’organisation, d’autant plus lorsqu’on envisage d’exploiter des donnés « Big Data ». Ces données nécessitent en effet avant toute mise en œuvre dans l’analyse d’être découvertes, qualifiées et que leur pertinence soit démontrée.

Très en vogue, le « DataLab » est présenté comme une organisation dotée de moyens en charge de découvrir, de qualifier et de synchroniser des données non encore validées, puis de produire les résultats attendus par les directions métiers sous forme de « proof of concepts », d’études ponctuelles ou de mise en pilote de chaînes d’analyse qu’il faudra ensuite valider par l’expérience métier.
Pourquoi cette souplesse envisagée alors sous forme de DataLab’s pour le Big Data, ne servirait-elle pas de mode normal d’usage B.I. pour les nouvelles données dans l’entreprise ? Et pourquoi ne servirait-elle pas aussi aux analyses et restitutions, aujourd’hui « fabriquées » à risque par les utilisateurs finaux, alors qu’elles pourraient être utilisées sans effort et en toute sécurité grâce à un mode de conception et de validation garanti par des ressources qualifiées tant sur le plan technique que fonctionnel ?
Grâce à ces bénéfices sur le plan méthodologique, la réflexion autour du Big Data va donc aussi clairement permettre à la B.I d’entreprise de devenir vraiment agile.


Le Big Data fait évoluer les zones de confort stratégiques

Quels sont les domaines de l’information d’entreprise où le traitement de la donnée brute du Big Data laisse entrevoir des gains conséquents ? Ils sont nombreux ! Tels que la vision 360° et « omnicanale » du client ou du prospect, la surveillance de la concurrence, la mesure de la notoriété, l’anticipation des évolutions de marché, la prévention des risques, la prédiction de la performance économique des produits et des rentabilités, l’évaluation des gains et risques de fusion-acquisition, la prise en compte des innovations technologiques, l’état et les évolutions des contraintes de conformité règlementaires, supra-étatiques, jurisprudentielles, …

Tous ces sujets intéressent l’entreprise à des niveaux éminemment tactiques et stratégiques. La recherche et le traitement des données correspondantes ne peuvent être laissés à l’initiative ou à la bonne volonté de techniciens IT, aussi excellents soient-ils.

De plus, ces données ne sont pas toutes éligibles à figurer dans un quelconque datawarehouse. Il faut donc mettre au point un nouveau modèle de gouvernance des données qui englobe tous les usages, du plus stratégique au plus opérationnel. La gouvernance des données limitée aux données élues pour figurer dans un datawarehouse est périmée depuis longtemps… Le Big Data permet d’ouvrir des chantiers de « Strategic Data Gouvernance » qui s’inscrivent dans la durée. Ces chantiers se déclinent d’un point de vue organisationnel par la mise en place d’instances permanentes composées d’utilisateurs, d’informaticiens et si possible de statisticiens réunis en un « Enterprise Strategic Data Council », sponsorisé au plus haut niveau et qui coordonne les autres instances plus opérationnelles, parmi lesquelles le comités de pilotage d’usages des données par domaines métiers, le comité de pilotage des plateformes techniques décisionnelles et référentielles, les DataLab’s par typologie de besoins, les communautés d’utilisateurs B.I…

Gageons que le Big Data va définitivement changer le comportement responsable des entreprises vis-à-vis de leurs données en leur permettant de valoriser enfin leur capital immatériel et informationnel. Les bénéfices business ? Imaginez des organisations business-intelligentes et proactives… On va tous gagner à investir sur le Big Data !



Dans la même rubrique :