Hadoop permet de relever les défis classiques auxquels les entreprises ont aujourd’hui à faire face : forte croissance du volume des données à traiter, augmentation continuelle des demandes des métiers, complexité des cahiers des charges en matière d’ETL, limite au niveau des fenêtres de traitement, escalade des coûts face à des budgets de plus en plus serrés.
L’approche aujourd’hui recommandée par les conseils indépendants et sérieux, c’est-à-dire pas ceux qui sont juges & parties, consiste à mettre en œuvre une architecture de référence centrée sur Hadoop, de déplacer les traitements batch de l'entreprise sur Hadoop, de faire des données gérées par Hadoop le point de vérité unique de l’entreprise, de massivement réduire le recours aux solutions ETL en assumant notamment la partie transformation avec Hadoop, de conserver sur Hadoop les données à leur niveau de granularité le plus fin pour d’autres traitements ultérieurs, et de renvoyer dans les systèmes en place les résultats pour exploitations par les métiers.
Les grandes entreprises ont besoin d’un système d’information décisionnel complet et les solutions aujourd’hui en place sont complexes, avec des entrepôts de données d’entreprise, des data marts, de nombreux outils d’analyse, de reporting et une intégration poussée avec les systèmes opérationnels qui gèrent les transactions. Les solutions d’entreprise qui utilisent Hadoop doivent être conçues comme des écosystèmes globaux ayant pour objectifs de : réduire les coûts, diminuer considérablement le temps de traitement par lots pour les mainframes et les entrepôts de données ; de conserver et d'analyser les données à un niveau beaucoup plus granulaire, et avec une plus grande profondeur d’historique ; de délivrer de façon fiable la production dans les fenêtres de temps ; d’éliminer en grande partie l'utilisation des outils ETL traditionnels ; de permettre aux utilisateurs métier d’améliorer leurs analyses sur de très grands ensembles de données.
Les distributeurs ont par exemple besoin de s’améliorer dans les calculs de l’élasticité des prix de leurs articles en magasin. C’est-à-dire de répondre plus fréquemment à la question " qu’entraîne une évolution du prix sur la consommation de mes produits ? ". Plus l’élasticité est forte, plus la variation du prix a un effet important sur la consommation. Pour cela il faut prendre en considération les données de ventes par article, ce qui pour un grand distributeur peut représenter plusieurs milliards de lignes, ce qui nécessite de grandes capacités de stockage et de traitement. Avec des moyens traditionnels, la plupart des distributeurs font ce type de calcul trimestriellement, ce qui limite la possibilité de suivre au plus près les évolutions des marchés et de piloter le lancement de nouveaux produits.
Les distributeurs qui aujourd’hui chargent les données nécessaires dans Hadoop (données concernant les offres, les ventes, les prix, les stocks, les magasins, les paramètres d’élasticité …), peuvent maintenant calculer l’élasticité des prix chaque semaine et l’ensemble de données constitué pour cette application permet en outre de développer d’autres analyses particulièrement utiles pour les analystes métiers. Au-delà des cas métiers d’utilisation d’Hadoop dont on pourrait multiplier les exemples dans de nombreuses industries (banque, télécommunication, distribution, assurances …), nous pouvons constater qu’Hadoop sert principalement à : être le point central de collecte directe de données en provenance des systèmes opérationnels, être le lieu de transformation des données, gérer les données au niveau de granularité le plus fin, éliminer les stockages redondants, et au final être la source unique de la vérité d’entreprise.
Mais attention introduire Hadoop dans l’architecture de son système d’information décisionnel n’est pas simple, l’aide d’un conseil indépendant est recommandée, la bonne nouvelle étant qu’il y a déjà beaucoup de grandes entreprises qui ont fait le chemin et dont on peut s’inspirer. Dans cet esprit l’interview du CTO de Sears, ci-jointe, est intéressante à écouter :
L’approche aujourd’hui recommandée par les conseils indépendants et sérieux, c’est-à-dire pas ceux qui sont juges & parties, consiste à mettre en œuvre une architecture de référence centrée sur Hadoop, de déplacer les traitements batch de l'entreprise sur Hadoop, de faire des données gérées par Hadoop le point de vérité unique de l’entreprise, de massivement réduire le recours aux solutions ETL en assumant notamment la partie transformation avec Hadoop, de conserver sur Hadoop les données à leur niveau de granularité le plus fin pour d’autres traitements ultérieurs, et de renvoyer dans les systèmes en place les résultats pour exploitations par les métiers.
Les grandes entreprises ont besoin d’un système d’information décisionnel complet et les solutions aujourd’hui en place sont complexes, avec des entrepôts de données d’entreprise, des data marts, de nombreux outils d’analyse, de reporting et une intégration poussée avec les systèmes opérationnels qui gèrent les transactions. Les solutions d’entreprise qui utilisent Hadoop doivent être conçues comme des écosystèmes globaux ayant pour objectifs de : réduire les coûts, diminuer considérablement le temps de traitement par lots pour les mainframes et les entrepôts de données ; de conserver et d'analyser les données à un niveau beaucoup plus granulaire, et avec une plus grande profondeur d’historique ; de délivrer de façon fiable la production dans les fenêtres de temps ; d’éliminer en grande partie l'utilisation des outils ETL traditionnels ; de permettre aux utilisateurs métier d’améliorer leurs analyses sur de très grands ensembles de données.
Les distributeurs ont par exemple besoin de s’améliorer dans les calculs de l’élasticité des prix de leurs articles en magasin. C’est-à-dire de répondre plus fréquemment à la question " qu’entraîne une évolution du prix sur la consommation de mes produits ? ". Plus l’élasticité est forte, plus la variation du prix a un effet important sur la consommation. Pour cela il faut prendre en considération les données de ventes par article, ce qui pour un grand distributeur peut représenter plusieurs milliards de lignes, ce qui nécessite de grandes capacités de stockage et de traitement. Avec des moyens traditionnels, la plupart des distributeurs font ce type de calcul trimestriellement, ce qui limite la possibilité de suivre au plus près les évolutions des marchés et de piloter le lancement de nouveaux produits.
Les distributeurs qui aujourd’hui chargent les données nécessaires dans Hadoop (données concernant les offres, les ventes, les prix, les stocks, les magasins, les paramètres d’élasticité …), peuvent maintenant calculer l’élasticité des prix chaque semaine et l’ensemble de données constitué pour cette application permet en outre de développer d’autres analyses particulièrement utiles pour les analystes métiers. Au-delà des cas métiers d’utilisation d’Hadoop dont on pourrait multiplier les exemples dans de nombreuses industries (banque, télécommunication, distribution, assurances …), nous pouvons constater qu’Hadoop sert principalement à : être le point central de collecte directe de données en provenance des systèmes opérationnels, être le lieu de transformation des données, gérer les données au niveau de granularité le plus fin, éliminer les stockages redondants, et au final être la source unique de la vérité d’entreprise.
Mais attention introduire Hadoop dans l’architecture de son système d’information décisionnel n’est pas simple, l’aide d’un conseil indépendant est recommandée, la bonne nouvelle étant qu’il y a déjà beaucoup de grandes entreprises qui ont fait le chemin et dont on peut s’inspirer. Dans cet esprit l’interview du CTO de Sears, ci-jointe, est intéressante à écouter :
Autres articles