La traçabilité des données est un processus qui vise a fournir une cartographie du système d'information, sous l’angle du cycle de vie des données (voir ce terme). Il permet une visualisation du cycle de vie de la donnée en vue de répondre aux questions suivantes : de quelle source provient cette donnée, quelles transformations a-t-elle subies, où a-t-elle été stockée, comment a-t-elle été utilisée.
Le cycle de vie de la donnée commence lors de sa première entrée dans le système d’information. Historiquement il pouvait s’agir de saisies, de bandes ou de carte perforées… aujourd’hui les données arrivent via des fichiers, des API, des saisies, des objets connectés, etc. A son entrée dans le système la donnée est référencée. Les caractéristiques de chaque donnée alimentent ses métadonnées (voir ce terme).
Ensuite à chaque transformation que subit la donnée, on conserve la trace de cette transformation. En reprenant l’ensemble des transformations dans l’ordre inverse, on doit être en mesure de retrouver la donnée initiale.
Le processus de traçabilité se poursuit lors du stockage, du transfert vers d’autres applications, de l’utilisation, et finalement de son effacement éventuel.
Le data lineage est un besoin règlementaire dans certains secteurs d’activité comme la banque.