Les 3 pièges à éviter pour un dictionnaire de données performant

Eric LAPINA, Directeur de practice Data chez Quanteam - Groupe Rainbow Partners

Aujourd’hui la donnée est la nouvelle richesse des entreprises.

Sous forme d’entrepôt classique de lac ou de tout autre système de rangement, c’est cette donnée qui permettra de créer de la valeur et de faire la différence vis-à-vis des concurrents. Nous allons dans cet article expliquer l’intérêt essentiel d’établir un dictionnaire de données clair et partagé par tous les protagonistes dans un projet d’entrepôt de données.

1. La définition

Le dictionnaire de données est une liste de données (champs) qui seront présentes dans l’entrepôt de données. Ces données pourront être diverses : texte, date, numériques et contenir l’ensemble du spectre fonctionnel nécessaire à notre activité. Les listes de valeurs de certaines données devront être précisées à l’élaboration du dictionnaire afin de simplifier la récupération future. Il existe 2 types de liste de valeurs : celle définie telle que par exemple la liste des pays (les mises à jour sont très peu fréquentes) et les listes libres comme des champs commentaires qui seront beaucoup plus complexes à réutiliser plus tard.

La première chose à faire dans un dictionnaire de données est d’établir une définition claire et partagée par les owners (responsables de la donnée). Ce point de partage de la définition est crucial. Certaines définitions de données n’ouvrent pas de débat mais si on parle de montant d’encours à une personne du risque, de la comptabilité ou de la liquidité, les définitions pourront varier car chacun aura sa vision.Dans ce cas précis, un bon dictionnaire de données ne mélangera pas les définitions mais multipliera les données pour que chacun ait sa définition exacte.

Ces définitions partagées simplifieront les échanges au sein de la structure et garantiront une meilleure efficience. De plus, cela pourra dans certains cas réduire les risques opérationnels ou réglementaires.Ce dictionnaire de données clair permettra également de répondre plus facilement à des contraintes réglementaires ou juridiques (RGPD et CNIL).

2. Gouvernance de la donnée

Pour qu’une donnée reste de qualité dans le temps, il est nécessaire de suivre plusieurs règles. Premièrement, une équipe doit être responsable de cette donnée (data Owner) afin d’être certain que seule elle puisse la modifier et que les personnes puissent se tourner vers cette équipe en cas d’anomalies trouvées.

Par la suite, il est important que les données soient utilisées par les systèmes ou utilisateurs. En effet, une utilisation régulière permettra de la fiabiliser car les erreurs seront détectées immédiatement par ceux connaissant le mieux cette donnée et des corrections pourront être apportées. Enfin, dans le cadre d’une amélioration continue, il sera utile de mettre en place, à chaque anomalie trouvée, des contrôles automatiques pour anticiper la résolution d’un problème potentiel. Le croisement régulier entre données pour tenter de trouver des anomalies fait partie des contrôles les plus efficaces pour maintenir un haut niveau de qualité.

3. Evolution du dictionnaire de données dans le temps

Le dictionnaire de données fait partie intégrante du modèle de données qui sera créé dans les systèmes IT.

Ce modèle devra éviter plusieurs pièges :

1. Ne jamais répéter de données à plusieurs endroits différents : en effet le rangement de données identiques à des endroits distincts entrainera probablement une divergence des données un jour.

2. Ne pas valider l’ensemble des « use-case » métiers, en particulier au niveau de la cardinalité des tables : cette étape indispensable valide la structure du modèle et si les notions fonctionnelles marchent bien entre elles, cela évitera aussi la répétition d’information.

3. Ne pas être capable d’évoluer de manière ascendante sans toucher à l’existant : les données du passé devront toujours être accessibles ne serait-ce que pour des besoins d’audit.

En reprenant l’analogie initiale de la construction, si les fondations sont solides et que les évacuations sont bien installées, il sera possible de rajouter une extension sur le côté ou sur la maison, c’est exactement la même chose pour un dictionnaire de données.

Un dictionnaire de données est donc un des éléments clé de succès pour la réussite d’un projet d’entrepôt de données. Sa rédaction précise et partagée en amont évitera de gros problèmes par la suite. C’est une tâche importante qui doit être un préalable avant le commencement des devs. Les gains à court terme seront une simplification des échanges avec les équipes et des tests plus faciles coté développement. A long terme, cela apportera une amélioration de la qualité (et donc de la valeur générée) ainsi qu’une réduction de coût de développement sur les besoins futurs. En fin de compte, un dictionnaire de données clair est un investissement à long terme pour une gestion de données efficace et un entrepôt de données de qualité.

Autres articles

Les 3 pièges à éviter pour un dictionnaire de données performant

Qui construirait une maison sur de la boue avec des mikados en guise de fondation ? Si la construction est solide mais que personne ne parle la même langue il semble difficile de finir les travaux, une grande tour mythologique en a fait les frais il y a quelques milliers d’années.

La conformité au cœur de la transformation numérique des institutions financières : un défi pour 2025

Le MIT a recensé 777 risques potentiels liés à l’IA dans une base de données partagée gratuitement

Gouverner l’intelligence artificielle : les données, leur qualité, leur conformité (4ème partie)

Gouverner l’intelligence artificielle : cadres réglementaires et normatifs (3ème partie)

Gouverner l’intelligence artificielle : cartographier les risques (2ème partie)

Une nouvelle solution Nextlane pour faire face aux exigences du RGPD dans le secteur automobile - 01/04/2025

Podcast : Natalie Maroun nous parle de données et de communication de crise - 28/03/2025

Podcast : Data Chain, une plateforme de données française, avec Sandra Mathieu de Adobis Group - 28/03/2025

Vie privée en ligne, 70 % des demandes de déréférencement concentrées dans 5 pays - 24/03/2025

Precisely lance des innovations en matière de Geo Addressing et d'enrichissement des données sur Snowflake Marketplace - 13/03/2025