Jean-Pierre Riehl, Responsable de la practice Data & Business Intelligence chez AZEO
« Le big data » est l’expression utilisée pour parler de données difficilement exploitables avec des moyens ou des techniques traditionnelles. Cela implique, et il faut correctement l’appréhender, de nouveaux modes d’exploitation. Au-delà d’une simple expression, le big data est un véritable concept permettant d’abolir les limites de l’exploitation des données. Au final et encore plus aujourd’hui, le souhait de chaque utilisateur est de trouver, au cœur d’une montagne de données, des tendances, des relations inattendues, des modèles dans le modèle, etc. Face à l’explosion du big data, de nouveaux paradigmes ont été créés offrant, quelque soit le secteur, de nombreuses possibilités.
Un changement de paradigme réel dans l’approche de l’exploitation des données
Tout d’abord, pour mettre en pratique ce concept de big data le principe des 3V est indispensable :
- La volumétrie concerne des données très importantes sans pour autant aller jusqu’aux péta- octects de Facebook ou de Google. On compte maintenant cette masse de données en centaines de To.
- La vélocité représente quant à elle un flux entrant supérieur à la capacité de traitement (ou suffisamment élevé en comparaison). On entend par « traitement » l’intégration ou l’analyse de ces données.
- La variété concerne le « format » des données. Cela peut se traduire par un nombre inconsistant de colonnes (ex : certaines lignes avec 3 colonnes et d’autres avec 10). Par exemple, on peut trouver dans ce cas les logs Web d’un site d’e-commerce où est stockée la simple navigation puis, au moment de la vente, toutes les données relatives à celle-ci. On parle également des données non-structurées (ex : une structure moléculaire) ou des types un peu plus exotiques comme les images, la vidéo ou le son.
Toutefois, l’un des premiers objectifs du big data est de pouvoir répondre aux principaux enjeux d’une entreprise. Pour ce faire, de nouveaux paradigmes ont été conçus en lien avec ces 3V.
Le stockage, d’une part, qui est une composante incontournable puisqu’il permet d’absorber le volume et la vélocité. D’autre part, le « requêtage » qui constitue également l’un des nouveaux modèles du big data. Ce dernier a été spécialement créé pour désigner la capacité d’adaptation à la variété des données.
Au cœur de ces réflexions, Hadoop1 qui propose un système de stockage (HDFS) et des systèmes de « requêtage » (MapReduce, Hive ou PIG). Microsoft a rejoint Hadoop en signant un partenariat avec HortonWorks et y contribue en fournissant de l’outillage (« requêtage » en Javascript, Driver Hive ODBC, etc.) et en portant Hadoop sur Azure et Windows.
Du concept à la mise en pratique
Derrière ce concept, il est important d’évoquer des exemples concrets mis en place grâce au big data, et auprès de divers secteurs.
Premier exemple, les analyses marketing peuvent être grandement enrichies grâce au big data. Les tweets et les logs Facebook, par exemple, sont des volumétries énormes avec un flux d’entrée continu qu’il faut dompter. Les analyses réalisées sur ces deux média permettent d’obtenir une mine d’informations qualitatives sur un produit en provenance directe des consommateurs, une marque, un service et de les corréler aux campagnes marketing ou publicitaires pour en mesurer l’efficacité.
Autre exemple, le big data a un réel avantage dans le cadre des analyses web. Il permet de stocker l’historique « des clics » et du contexte de ces derniers. Les informations fournies aident alors à la compréhension des chemins réalisés online et qui conduisent à une action (une vente, par exemple).
Dans le domaine de la santé, le big data intervient pour les données de type ADN, par exemple, très volumineuses et difficilement exploitables en l’état. Les technologies liées au big data permettent donc aux scientifiques de lancer des recherches complexes, parmi leurs données, et de trouver des corrélations, des patterns ou des anomalies.
Enfin, dernier exemple avec les opérateurs télécoms qui exploitent les données en provenance des antennes et qui sont très techniques (trames binaires) et très volumineuses. Les opérateurs, grâce à ce concept, peuvent lancer des requêtes pour analyser l’utilisation de leur réseau et ainsi améliorer la capacité, la couverture, etc.
Pour conclure, il est essentiel de mettre en avant que pour beaucoup, le big data est LA tendance en 2012 et 2013 et le mot en lui-même, un phénomène marketing. En moins d’un an, tous les éditeurs ont sorti une offre, plus ou moins intégrée dans leur solution. Microsoft, par exemple, puisque leur stratégie big data a été intégrée au cœur des technologies traditionnelles avec des ponts « naturels » entre les 2 comme la technologie « Polybase » qui permet de mixer des données big data avec un entrepôt de données classique sous SQL Server. Toutefois, et il est important de le souligner : pour bien cerner un véritable cas de big data, les 3V sont indispensables mais la maîtrise des nouveaux paradigmes également ! On stocke et on requête différemment mais la finalité concerne l’analyse des données qui reste la même que dans la gestion de données et la Business Intelligence traditionnelle.
1) Hadoop est un framework Java libre destiné à faciliter la création d'applications distribuées et échelonnables (scalables).
Un changement de paradigme réel dans l’approche de l’exploitation des données
Tout d’abord, pour mettre en pratique ce concept de big data le principe des 3V est indispensable :
- La volumétrie concerne des données très importantes sans pour autant aller jusqu’aux péta- octects de Facebook ou de Google. On compte maintenant cette masse de données en centaines de To.
- La vélocité représente quant à elle un flux entrant supérieur à la capacité de traitement (ou suffisamment élevé en comparaison). On entend par « traitement » l’intégration ou l’analyse de ces données.
- La variété concerne le « format » des données. Cela peut se traduire par un nombre inconsistant de colonnes (ex : certaines lignes avec 3 colonnes et d’autres avec 10). Par exemple, on peut trouver dans ce cas les logs Web d’un site d’e-commerce où est stockée la simple navigation puis, au moment de la vente, toutes les données relatives à celle-ci. On parle également des données non-structurées (ex : une structure moléculaire) ou des types un peu plus exotiques comme les images, la vidéo ou le son.
Toutefois, l’un des premiers objectifs du big data est de pouvoir répondre aux principaux enjeux d’une entreprise. Pour ce faire, de nouveaux paradigmes ont été conçus en lien avec ces 3V.
Le stockage, d’une part, qui est une composante incontournable puisqu’il permet d’absorber le volume et la vélocité. D’autre part, le « requêtage » qui constitue également l’un des nouveaux modèles du big data. Ce dernier a été spécialement créé pour désigner la capacité d’adaptation à la variété des données.
Au cœur de ces réflexions, Hadoop1 qui propose un système de stockage (HDFS) et des systèmes de « requêtage » (MapReduce, Hive ou PIG). Microsoft a rejoint Hadoop en signant un partenariat avec HortonWorks et y contribue en fournissant de l’outillage (« requêtage » en Javascript, Driver Hive ODBC, etc.) et en portant Hadoop sur Azure et Windows.
Du concept à la mise en pratique
Derrière ce concept, il est important d’évoquer des exemples concrets mis en place grâce au big data, et auprès de divers secteurs.
Premier exemple, les analyses marketing peuvent être grandement enrichies grâce au big data. Les tweets et les logs Facebook, par exemple, sont des volumétries énormes avec un flux d’entrée continu qu’il faut dompter. Les analyses réalisées sur ces deux média permettent d’obtenir une mine d’informations qualitatives sur un produit en provenance directe des consommateurs, une marque, un service et de les corréler aux campagnes marketing ou publicitaires pour en mesurer l’efficacité.
Autre exemple, le big data a un réel avantage dans le cadre des analyses web. Il permet de stocker l’historique « des clics » et du contexte de ces derniers. Les informations fournies aident alors à la compréhension des chemins réalisés online et qui conduisent à une action (une vente, par exemple).
Dans le domaine de la santé, le big data intervient pour les données de type ADN, par exemple, très volumineuses et difficilement exploitables en l’état. Les technologies liées au big data permettent donc aux scientifiques de lancer des recherches complexes, parmi leurs données, et de trouver des corrélations, des patterns ou des anomalies.
Enfin, dernier exemple avec les opérateurs télécoms qui exploitent les données en provenance des antennes et qui sont très techniques (trames binaires) et très volumineuses. Les opérateurs, grâce à ce concept, peuvent lancer des requêtes pour analyser l’utilisation de leur réseau et ainsi améliorer la capacité, la couverture, etc.
Pour conclure, il est essentiel de mettre en avant que pour beaucoup, le big data est LA tendance en 2012 et 2013 et le mot en lui-même, un phénomène marketing. En moins d’un an, tous les éditeurs ont sorti une offre, plus ou moins intégrée dans leur solution. Microsoft, par exemple, puisque leur stratégie big data a été intégrée au cœur des technologies traditionnelles avec des ponts « naturels » entre les 2 comme la technologie « Polybase » qui permet de mixer des données big data avec un entrepôt de données classique sous SQL Server. Toutefois, et il est important de le souligner : pour bien cerner un véritable cas de big data, les 3V sont indispensables mais la maîtrise des nouveaux paradigmes également ! On stocke et on requête différemment mais la finalité concerne l’analyse des données qui reste la même que dans la gestion de données et la Business Intelligence traditionnelle.
1) Hadoop est un framework Java libre destiné à faciliter la création d'applications distribuées et échelonnables (scalables).