Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo


 
Forums, dernières contributions

Définition et implémentation d’un ETL pour les entrepôts de données agricoles

 Sandro BIMONTE
Vendredi 16 Mars 2012

Version imprimable
Contexte
Un entrepôt de données est « une collection de données, intégrées, non volatiles et historiées pour la prise de
décisions » (Kimball, 1996). Dans un entrepôt de données, les données sont organisées en fonction des
exigences analytiques des utilisateurs. Les entrepôts de données sont peuplés en utilisant différentes sources de
données hétérogènes pour lesquelles ils fournissent une vision unifiée et homogène. Contrairement aux données
opérationnelles qui ont une durée de vie limitée, les entrepôts de données doivent permettre une analyse
historique. Les entrepôts de données associés à des outils d’analyse On Line Analytical Processing (OLAP), représentent
une solution effective pour l’informatique décisionnelle (Kimball, 1996) . Les données dans les hypercubes sont
organisées en axes d’analyses appelés dimensions. Les sujets d’analyse, appelés « faits » sont caractérisés par
des mesures, qui sont pré-calculées à l’aide de fonctions d’agrégation selon les différentes granularités définies
par le schéma hiérarchique de chaque dimension. Dans le cas classique, une mesure est une valeur numérique
qui décrit quantitativement le fait. Ainsi une analyse multidimensionnelle portant sur un fait « ventes » d’un
ensemble de magasins pourra être réalisée en définissant comme mesures « le volume de la vente» et « le
montant de la vente». Le processus d’analyse est conduit par la navigation dans le cube multidimensionnel. Les
opérateurs OLAP (roll-up, drill-down, slice, etc.) permettent de visualiser les mesures pour des ensembles de
membres à des niveaux de granularité sélectionnés par l’utilisateur. Les opérations de forage (roll-up, drill-down)
sont fondées sur des fonctions d’agrégation appliquées aux mesures, par exemple la somme appliquée au
volume de produits vendus. Des interfaces orientées navigation (tableau de bord, tableau multidimensionnels,
graphes) complètent le panel des outils décisionnels.
Les Systèmes d’Aide à la Décision et les systèmes OLAP en particulier, ne présentent aucun instrument pour la
gestion des données spatiales. Des solutions, connues sur le terme d’OLAP Spatial, qui visent à intégrer la
donnée spatiale dans les entrepôts de données et l'OLAP, ont donc été développées.
L’OLAP Spatial (SOLAP) a été défini par Yvan Bédard comme « une plateforme visuelle conçue spécialement
pour supporter une analyse spatio-temporelle rapide et efficace à travers une approche multidimensionnelle qui
comprend des niveaux d’agrégation cartographiques, graphiques et tabulaires » (Rivest et al., 2005).
L'architecture typique d'un système SOLAP est composée de trois niveaux (Rivest et al., 2005) :
- L'entrepôt de données spatiales qui intègre les données spatiales et alphanumériques provenant des sources
externes. L'intégration est faite en utilisant les outils de Extract-Transform-Load (ETL). Dans l'approche classique
(appelé Relational OLAP) les données sont stockées dans une base de données relationnelle. Les données
spatiales
- Le serveur SOLAP qui définit les éléments du modèle spatiomultidimensionnel (dimensions, mesures, etc.) et
il implémente les opérateurs SOLAP ;
- Le client SOLAP qui comme déjà décrit permet l'exploration et la visualisation des données entreposées en
utilisant des cartes interactives.
Dans le contexte du projet Energetic (Bimonte et al., 2011), et sa suite dans le cadre di projet EDEN, nous nous
somme focalisés sur l'analyse de la consommation énergétique des exploitations agricoles dans le but d'identifier
les tâches et les contextes de travail les plus consommateurs d'énergie en utilisant un approche SOLAP. Dans ce
travail nous avons utilisé les techniques de l'Analyses de Cycle de Vie (ACV) pour la mise en place des
indicateurs énergétiques. L'ACV est une discipline qui se base sur la notion de développement durable pour
fournir un moyen efficace et systématique pour évaluer les impacts environnementaux d'un produit ou d'un
service.
Objectif
Pour la définition de l'entrepôt de données spatiales pour le projet Energetic plusieurs problèmes de modélisation
multidimensionnelle ont émergés. En particulier, le processus ETL s'est avéré très complexe vue les particularités
de données sources, du modèle de l’entrepôt de données spatiale et le fait que les consommations énergétiques
des différents produits (carburants, engrais, etc.) sont mesurés avec des unités de mesures différentes (par
exemple Litre et Kg N).
L’entrepôt de données spatiales conçu pour le projet EnergeTIC se base sur un système ETL conçu ad-hoc pour
les données recueilles pendant le projet. Le système mis en place n’est pas donc fonctionnel dans le nouveau
contexte du projet EDEN car des nouvelles sources des données doivent être intégrées dans l’entrepôt de
données spatiales. En plus, le système SOLAP utilisé dans EnergeTIC a montré plusieurs limites. C’est pourquoi
que nous envisageons d’explorer des nouveaux outils SOLAP pour le déploiement du nouveau entrepôt de
données.

Plan
Les objectifs à atteindre sont :
1. Étudier l'entrepôt de données Energetic et les techniques de conversion de l'ACV pour les données
de l'entrepôt de données Energetic ;
2. Etudier les outils ETL et SOLAP existantes
3. Implémenter un processus d’ETL automatique pour les données de Energetic et EDEN qui intègre les
règles de conversion
4. Implémenter l’entrepôt de données dans l’outil SOLAP la plus adaptée aux besoins du projet

Connaissances requises
· Outils ETL (PAR EXEMPLE Talend, etc.)
· Outils ED/OLAP (PAR EXEMPLE Mondrian, SQL Server, Oracle, etc.)

Encadrement
Dr. Sandro Bimonte, chargé de recherche, Equipe COPAIN, Irstea, Clermont-Ferrand
http://eric.univ-lyon2.fr/~sbimonte/
http://www.irstea.fr/la-recherche/unites-de-recherche/tscf/systemes-dinformation-communicants-et-agrienvironnementaux


Questions pratiques
Le stage se déroulera au Irstea (ex. Cemagref) de Clermont-Ferrand au sein de l'équipe Copain
(http://motive.cemagref.fr/copain/presentation). La rémunération sera de 436 euros.
Le stage pourra éventuellement être prolongé par un CDD d'ingénieur d'étude pour une durée de 12 mois.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store