Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Métadonnées : le poids lourd au cœur de l’intégration des données


Rédigé par Matt Casters, Pentaho le 9 Juillet 2012

Le Cloud simplifie peut-être la vie des utilisateurs et permet de limiter les dépenses, mais pour les développeurs qui doivent faire face au monde de l’intégration de données complexe et parfois désordonné, les choses sont plus compliquées.
Avec les applications Cloud, qui peuvent être réparties sur divers environnements client ou serveur et selon divers scénarios utilisateur, il est impossible de prévoir les types d’ensembles de données que les utilisateurs souhaiteront télécharger et analyser. Ces « inconnues connues » de l’intégration de données nécessitent de nouvelles approches. Heureusement, des outils open source sont disponibles pour simplifier la tâche des développeurs.



Matt Casters, Chief of Data Integration chez Pentaho
Matt Casters, Chief of Data Integration chez Pentaho
Une étape clé de n’importe quel projet d’intégration de données consiste à définir les métadonnées, que les développeurs appellent « les données sur les données ». Les spécialistes des données distinguent quatre niveaux d’abstraction en matière de métadonnées : les données, les métadonnées, les modèles de métadonnées et les Metadata Object Facilities (MOF). Ces niveaux d’abstraction de données simplifient la tâche des personnes qui utilisent les données ou les métadonnées pour décrire des données aux autres ou à un logiciel.
De la même façon dans le processus ETL (extraction, transformation et chargement), on distingue également des niveaux d’abstraction, le premier niveau étant le logiciel d’ETL. Les développeurs continuent à effectuer beaucoup de tâches d’ETL manuellement, convaincus qu’il s’agit d'un processus ponctuel et peu coûteux. En réalité, ce processus exige une maintenance régulière et devient onéreux parce que les environnements informatiques où résident les applications sont en perpétuelle évolution. Cette réalité donne lieu à un deuxième niveau d'abstraction, les outils ETL qui génèrent automatiquement du code en fonction de paramètres prédéfinis ou de « métadonnées ETL ». Ce niveau nécessite bien moins de codage mais requiert toujours compilation, intégration et déploiement, d’où la nécessité d’un troisième niveau d’abstraction ETL.Ce niveau ne nécessite ni code, ni compilation, ni intégration ou déploiement. Il comporte deux composantes distinctes : les métadonnées ETL, qui décrivent la charge de travail et un moteur pour l’exécuter.
Les outils ETL, tels que le projet Open Source Pentaho Kettle que j’ai créé, ont changé la façon dont les entreprises réalisent l'intégration de données. Le codage de bas niveau peut désormais être remplacé par des interfaces utilisateur dans lesquelles les métadonnées ETL peuvent être introduites. Les API de programmation de bas niveau ont été remplacées par des outils visuels, notamment des débogueurs qui peuvent être gérés de manière centrale, permettant ainsi aux développeurs d’assurer et de contrôler diverses tâches de travail.
Cependant, ce n’est pas le moment de nous reposer sur nos lauriers. Nous n’avons pas encore éliminé la programmation des charges de travail liées à l’intégration de données, nous l’avons seulement simplifiée. Grâce au Cloud, les données à la source et à destination sont totalement automatisées, hébergées dans certains cas sur des centaines de serveurs à différents endroits sur des machines virtuelles, laissant ceux qui utilisent des outils d’ETL classiques livrer une difficile bataille.
Puis il y a ces « inconnues connues». Par exemple, lorsqu’un utilisateur transfère une feuille de calcul vers une application SaaS, il se peut que le service informatique connaisse à l’avance le nom du fichier et la table de base de données dans laquelle archiver l’information, mais pas le format réel du fichier, les calculs et manipulations à effectuer. Ces types de tâches impliquent un quatrième et un cinquième niveau d’abstraction ETL.
Le quatrième niveau concerne le cas que nous venons de décrire. Nous créons un modèle avec un ensemble incomplet de métadonnées ETL qui décrit la charge de travail et nous insérons les éléments manquants, juste avant de réaliser le travail. Le même modèle peut ainsi être utilisé non seulement pour une feuille de calcul, mais pour des centaines ou des milliers de tâches identiques, ce qui évite que le travail soit fait manuellement.
Kettle supporte déjà depuis quelques années le quatrième niveau d’abstraction consistant à l’injection de métadonnées ETL et devient de plus en plus populaire. Les développeurs n’ont plus à bricoler péniblement des centaines de transformations pour transférer d’aussi nombreuses tables de base de données. Il leur suffit simplement de créer un modèle et une transformation pour y insérer des détails. Le cinquième niveau d’abstraction renvoie à la programmation, mais uniquement pour les métadonnées ETL qui décrivent la tâche à effectuer. Cela constitue un énorme potentiel, mais au prix de réintroduire une certaine complexité de programmation.
La règle d'or des métadonnées nécessite un retour sur investissement, tel qu’une maintenance réduite, de la transparence etc. Pour les niveaux quatre et cinq, nous réduisons les investissements liés aux métadonnées en accédant à ces dernières à partir de sources immédiatement disponibles, telles que des catalogues de base de données, des services Web, sources de données XML ou JSON. Cependant, nous augmentons également l’investissement parce que nous augmentons la complexité ou réintroduisons le besoin de codage. Le projet Kettle prend également en charge le cinquième niveau d’abstraction ETL sous forme d’une API Java pour la programmation de métadonnées ETL.
Cette synthèse permettra d’évaluer les options possibles face aux problématiques de l’intégration de données.




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store