MDM et catalogue de données : deux outils complémentaires


Rédigé par le 9 Septembre 2024

Cela paraitra étrange à certains, mais en 2024, je dois encore régulièrement expliquer en formation ou en mission de conseil, les différences entre un catalogue de données, et un MDM, une gestion des données de référence.
Certes, il y a un petit recouvrement, et nous y reviendrons. Mais ces deux outils, sont complètement différents, et complémentaires. D’ailleurs, vous avez besoin de deux. Et je ne connais pas d’outil capable de répondre bien, simultanément, aux deux besoins.



Le MDM est un des outils clefs d’amélioration de la qualité des données. Pourquoi ? Tout simplement parce qu’une des raisons principales de la non-qualité de données, est la non-synchronisation des données. La même donnée est stockée à plusieurs endroits. L’une est certainement juste, ou l’a été, mais on ne sait pas laquelle, ni où elle se trouve.
C’est justement cela que résout le MDM : détenir une version unique, des données les plus importantes, les données dites « de référence ».

La définition d’une donnée de référence ?

C’est simple. Elle doit répondre à trois critères :
- Être utile et partagée entre plusieurs personnes ou applications : sinon, ce n’est pas dramatique, mais cela ne sert juste à rien de les mettre dans le MDM
- On doit être en mesure de vérifier la qualité et la véracité de toutes les données de référence, car partager une donnée de mauvaise qualité, c’est pire que de ne pas la partager
- Elles doivent être stables dans leur définition et leur mode de calcul, afin que l’on puisse les comparer dans le temps. Mais leur valeur peut être volatile.

Le dictionnaire de données ne contient pas les valeurs des données. On devrait d’ailleurs l’appeler dictionnaire de métadonnées. C’est ce qu’ont choisi certains éditeurs d’ailleurs. Mais l’influence américaine reste importante et on y parle de « Data Catalog » plus que de « Metadata Catalog ». Mais ce sont bien uniquement les métadonnées qui y sont stockées.

Concrètement prenons l’exemple d’une donnée de référence fréquente, l’identifiant client. Dans le catalogue de métadonnées, nous allons trouver : le nom de la donnée (Identifiant client), son code (ID_CLI), son data owner (par exemple le service commercial), son format, son type, sa définition métier, ses règles de gestion, son niveau de protection, sa conformité RGPD, etc, etc. Mais dans le catalogue des métadonnées, nous n’aurons jamais la liste des identifiants clients.

En revanche, cette liste est bien au cœur du MDM, qui recense l’ensemble des identifiants clients valides dans l’entreprise.
Petite subtilité, qui est parfois la source de certaines confusions, certaines métadonnées des données de référence peuvent être stockées dans les deux outils. Dans le catalogue des métadonnées, mais également pour certaines dans le MDM, qui en a besoin pour fonctionner.

Alors à quoi servent l’un et l’autre ?

Le catalogue des métadonnées permet de réduire le coût de développement des applications. En réutilisant les données existantes, en les localisant, en identifiant leurs métadonnées, le développement d’une nouvelle application sera facilité. Bien sur, cela demande un peu de rigueur de la part des concepteurs, qui doivent acquérir le réflexe de consulter le catalogue de données, avant d’envisager la création d’une nouvelle information… au cas, fort probable, où elle existerait déjà.

Le MDM de son côté, permet de réduire le coût des transactions. En mettant à disposition la valeur de référence d’une donnée, il permet de garantir que toutes les transactions utiliseront bien cette valeur. Donc plus de doublons, plus d’incohérences, les données sont conformes à leur valeur de référence.

C’est pour cela que le catalogue des métadonnées et la gestion des données de référence, sont les deux outils piliers d’une bonne gouvernance des données.




Dans la même rubrique :