Forums, dernières contributions
Définition et implémentation d’un ETL pour les entrepôts de données agricoles Sandro BIMONTE
Contexte
Un entrepôt de données est « une collection de données, intégrées, non volatiles et historiées pour la prise de décisions » (Kimball, 1996). Dans un entrepôt de données, les données sont organisées en fonction des exigences analytiques des utilisateurs. Les entrepôts de données sont peuplés en utilisant différentes sources de données hétérogènes pour lesquelles ils fournissent une vision unifiée et homogène. Contrairement aux données opérationnelles qui ont une durée de vie limitée, les entrepôts de données doivent permettre une analyse historique. Les entrepôts de données associés à des outils d’analyse On Line Analytical Processing (OLAP), représentent une solution effective pour l’informatique décisionnelle (Kimball, 1996) . Les données dans les hypercubes sont organisées en axes d’analyses appelés dimensions. Les sujets d’analyse, appelés « faits » sont caractérisés par des mesures, qui sont pré-calculées à l’aide de fonctions d’agrégation selon les différentes granularités définies par le schéma hiérarchique de chaque dimension. Dans le cas classique, une mesure est une valeur numérique qui décrit quantitativement le fait. Ainsi une analyse multidimensionnelle portant sur un fait « ventes » d’un ensemble de magasins pourra être réalisée en définissant comme mesures « le volume de la vente» et « le montant de la vente». Le processus d’analyse est conduit par la navigation dans le cube multidimensionnel. Les opérateurs OLAP (roll-up, drill-down, slice, etc.) permettent de visualiser les mesures pour des ensembles de membres à des niveaux de granularité sélectionnés par l’utilisateur. Les opérations de forage (roll-up, drill-down) sont fondées sur des fonctions d’agrégation appliquées aux mesures, par exemple la somme appliquée au volume de produits vendus. Des interfaces orientées navigation (tableau de bord, tableau multidimensionnels, graphes) complètent le panel des outils décisionnels. Les Systèmes d’Aide à la Décision et les systèmes OLAP en particulier, ne présentent aucun instrument pour la gestion des données spatiales. Des solutions, connues sur le terme d’OLAP Spatial, qui visent à intégrer la donnée spatiale dans les entrepôts de données et l'OLAP, ont donc été développées. L’OLAP Spatial (SOLAP) a été défini par Yvan Bédard comme « une plateforme visuelle conçue spécialement pour supporter une analyse spatio-temporelle rapide et efficace à travers une approche multidimensionnelle qui comprend des niveaux d’agrégation cartographiques, graphiques et tabulaires » (Rivest et al., 2005). L'architecture typique d'un système SOLAP est composée de trois niveaux (Rivest et al., 2005) : - L'entrepôt de données spatiales qui intègre les données spatiales et alphanumériques provenant des sources externes. L'intégration est faite en utilisant les outils de Extract-Transform-Load (ETL). Dans l'approche classique (appelé Relational OLAP) les données sont stockées dans une base de données relationnelle. Les données spatiales - Le serveur SOLAP qui définit les éléments du modèle spatiomultidimensionnel (dimensions, mesures, etc.) et il implémente les opérateurs SOLAP ; - Le client SOLAP qui comme déjà décrit permet l'exploration et la visualisation des données entreposées en utilisant des cartes interactives. Dans le contexte du projet Energetic (Bimonte et al., 2011), et sa suite dans le cadre di projet EDEN, nous nous somme focalisés sur l'analyse de la consommation énergétique des exploitations agricoles dans le but d'identifier les tâches et les contextes de travail les plus consommateurs d'énergie en utilisant un approche SOLAP. Dans ce travail nous avons utilisé les techniques de l'Analyses de Cycle de Vie (ACV) pour la mise en place des indicateurs énergétiques. L'ACV est une discipline qui se base sur la notion de développement durable pour fournir un moyen efficace et systématique pour évaluer les impacts environnementaux d'un produit ou d'un service. Objectif Pour la définition de l'entrepôt de données spatiales pour le projet Energetic plusieurs problèmes de modélisation multidimensionnelle ont émergés. En particulier, le processus ETL s'est avéré très complexe vue les particularités de données sources, du modèle de l’entrepôt de données spatiale et le fait que les consommations énergétiques des différents produits (carburants, engrais, etc.) sont mesurés avec des unités de mesures différentes (par exemple Litre et Kg N). L’entrepôt de données spatiales conçu pour le projet EnergeTIC se base sur un système ETL conçu ad-hoc pour les données recueilles pendant le projet. Le système mis en place n’est pas donc fonctionnel dans le nouveau contexte du projet EDEN car des nouvelles sources des données doivent être intégrées dans l’entrepôt de données spatiales. En plus, le système SOLAP utilisé dans EnergeTIC a montré plusieurs limites. C’est pourquoi que nous envisageons d’explorer des nouveaux outils SOLAP pour le déploiement du nouveau entrepôt de données. Plan Les objectifs à atteindre sont : 1. Étudier l'entrepôt de données Energetic et les techniques de conversion de l'ACV pour les données de l'entrepôt de données Energetic ; 2. Etudier les outils ETL et SOLAP existantes 3. Implémenter un processus d’ETL automatique pour les données de Energetic et EDEN qui intègre les règles de conversion 4. Implémenter l’entrepôt de données dans l’outil SOLAP la plus adaptée aux besoins du projet Connaissances requises · Outils ETL (PAR EXEMPLE Talend, etc.) · Outils ED/OLAP (PAR EXEMPLE Mondrian, SQL Server, Oracle, etc.) Encadrement Dr. Sandro Bimonte, chargé de recherche, Equipe COPAIN, Irstea, Clermont-Ferrand http://eric.univ-lyon2.fr/~sbimonte/ http://www.irstea.fr/la-recherche/unites-de-recherche/tscf/systemes-dinformation-communicants-et-agrienvironnementaux Questions pratiques Le stage se déroulera au Irstea (ex. Cemagref) de Clermont-Ferrand au sein de l'équipe Copain (http://motive.cemagref.fr/copain/presentation). La rémunération sera de 436 euros. Le stage pourra éventuellement être prolongé par un CDD d'ingénieur d'étude pour une durée de 12 mois. |