Sommaire de la série d’articles sur la gouvernance de l'intelligence artificielle :
1ère partie : les enjeux de la gouvernance de l’intelligence artificielle
2ème partie : cartographier les risques
3ème partie : cadres réglementaires et normatifs, réflexion éthique
4ème partie : les données, leur qualité, leur conformité
2ème partie : cartographier les risques
3ème partie : cadres réglementaires et normatifs, réflexion éthique
4ème partie : les données, leur qualité, leur conformité
Les données sont au cœur du bon fonctionnement des modèles d’apprentissage machine, d’apprentissage profond, des LLMs, des RAGs, etc. Aucun modèle, aucun, n’est capable de comprendre notre monde, sans être passé par une phase d’entrainement.
Certains modèles sont capables d’apprendre seuls, en fonction bien sur des données qu’on leur fournit ; d’autres ont besoin de l’Être humain pour étiqueter préalablement les données. Mais c’est invariable, un modèle d’IA n’est rien sans les données qui lui permettront d’apprendre.
Facile donc d’imaginer que la qualité de ce que le modèle apprend dépend de la qualité des données qui lui servent de base d’apprentissage. En une phrase, on a tout dit ! Et le problème apparait.
Je fournis des données de qualité médiocre à mon modèle, il prévoira ou générera des résultats de qualité médiocre ! Ce n’est pourtant pas très compliqué à comprendre.
Alors comment faire ? En fait tout est déjà prévu, rien de nouveau, il suffit juste d’appliquer les bonnes pratiques liées à la gouvernance des données. Eh oui, en effet, déployer des outils d’IA en production sans gouvernance de données est aussi dangereux que de prendre le volant sans avoir passé le code !
La gouvernance des données, ce sont trois facettes : la connaissance (c’est le catalogue de données), la qualité des données utilisées, et enfin leur conformité.
Alors, IA ou tableau de bord, les enjeux sont les mêmes.
La connaissance tout d’abord. Si vous ne savez pas quelles données alimentent vos modèles d’IA, vous avez tout faux. Ou plus exactement vous prenez le risque que des données inadaptées soient utilisées. Donc première étape, référencer, cataloguer les données utilisées par les modèles. On utilisera d’ailleurs souvent une modélisation graphe pour connecter les données, les algorithmes qui les utilisent, et les personnes en charge. Donc, première étape, une cartographie, un catalogue de données.
Deuxième étape, la qualité. Deuxième en effet, car comme mesurer la qualité d’une donnée que l’on n’aurait pas, au préalable, référencée ? Donc mesurer, évaluer, quantifier la non-qualité. Ce n’est pas parce qu’à la machine à café, on a l’habitude d’entendre que cette donnée est fausse, qu’elle l’ait réellement. Si oui, dans quelle proportion ? Est-elle quand même utilisable ? On ne peut pas améliorer ce que l’on n’a pas mesuré. Une fois mesurée, on recherche les causes profondes de cette non-qualité. Cela ne sert à rien de corriger le stock de données si l’on n’a pas d’abord colmaté la fuite ! On évaluera à cette étape si la donnée peut être utilisée pour alimenter des algorithmes et on avisera les utilisateurs de l’état réel de sa qualité.
Enfin, troisièmement, la conformité. Ça ne vous choque pas d’alimenter un algorithme avec une donnée que vous n’avez pas le droit d’utiliser ? Pour des raisons de conformité RGPD, pour des raisons d’éthique, pour des raisons de conformité avec l’IA Act, etc. Donc les données utilisées par l’IA doivent être conformes, aucune échappatoire.
En résumé, préalablement à toute mise en production, les données utilisées par l’intelligence artificielle, doivent être cataloguées, leur qualité doit être mesurée, et leur conformité validée.
J’ai bien précisé, avant la mise en production. Que certains tests soient faits par les data scientists en mode « bac à sable » sur des données anonymisées, juste « pour voir ». C’est acceptable. Mais attention, la mise en production doit passer par les fourches caudines de la gouvernance des données et de l’IA.
Du point de vue des responsabilités en entreprise, on comprend donc les nombreuses intersections entre le responsable de la gouvernance des données, et celui en charge de la gouvernance de l’Intelligence Artificielle. Et il est logique que la même personne endosse dans certaines organisations les deux responsabilités.
Certains modèles sont capables d’apprendre seuls, en fonction bien sur des données qu’on leur fournit ; d’autres ont besoin de l’Être humain pour étiqueter préalablement les données. Mais c’est invariable, un modèle d’IA n’est rien sans les données qui lui permettront d’apprendre.
Facile donc d’imaginer que la qualité de ce que le modèle apprend dépend de la qualité des données qui lui servent de base d’apprentissage. En une phrase, on a tout dit ! Et le problème apparait.
Je fournis des données de qualité médiocre à mon modèle, il prévoira ou générera des résultats de qualité médiocre ! Ce n’est pourtant pas très compliqué à comprendre.
Alors comment faire ? En fait tout est déjà prévu, rien de nouveau, il suffit juste d’appliquer les bonnes pratiques liées à la gouvernance des données. Eh oui, en effet, déployer des outils d’IA en production sans gouvernance de données est aussi dangereux que de prendre le volant sans avoir passé le code !
La gouvernance des données, ce sont trois facettes : la connaissance (c’est le catalogue de données), la qualité des données utilisées, et enfin leur conformité.
Alors, IA ou tableau de bord, les enjeux sont les mêmes.
La connaissance tout d’abord. Si vous ne savez pas quelles données alimentent vos modèles d’IA, vous avez tout faux. Ou plus exactement vous prenez le risque que des données inadaptées soient utilisées. Donc première étape, référencer, cataloguer les données utilisées par les modèles. On utilisera d’ailleurs souvent une modélisation graphe pour connecter les données, les algorithmes qui les utilisent, et les personnes en charge. Donc, première étape, une cartographie, un catalogue de données.
Deuxième étape, la qualité. Deuxième en effet, car comme mesurer la qualité d’une donnée que l’on n’aurait pas, au préalable, référencée ? Donc mesurer, évaluer, quantifier la non-qualité. Ce n’est pas parce qu’à la machine à café, on a l’habitude d’entendre que cette donnée est fausse, qu’elle l’ait réellement. Si oui, dans quelle proportion ? Est-elle quand même utilisable ? On ne peut pas améliorer ce que l’on n’a pas mesuré. Une fois mesurée, on recherche les causes profondes de cette non-qualité. Cela ne sert à rien de corriger le stock de données si l’on n’a pas d’abord colmaté la fuite ! On évaluera à cette étape si la donnée peut être utilisée pour alimenter des algorithmes et on avisera les utilisateurs de l’état réel de sa qualité.
Enfin, troisièmement, la conformité. Ça ne vous choque pas d’alimenter un algorithme avec une donnée que vous n’avez pas le droit d’utiliser ? Pour des raisons de conformité RGPD, pour des raisons d’éthique, pour des raisons de conformité avec l’IA Act, etc. Donc les données utilisées par l’IA doivent être conformes, aucune échappatoire.
En résumé, préalablement à toute mise en production, les données utilisées par l’intelligence artificielle, doivent être cataloguées, leur qualité doit être mesurée, et leur conformité validée.
J’ai bien précisé, avant la mise en production. Que certains tests soient faits par les data scientists en mode « bac à sable » sur des données anonymisées, juste « pour voir ». C’est acceptable. Mais attention, la mise en production doit passer par les fourches caudines de la gouvernance des données et de l’IA.
Du point de vue des responsabilités en entreprise, on comprend donc les nombreuses intersections entre le responsable de la gouvernance des données, et celui en charge de la gouvernance de l’Intelligence Artificielle. Et il est logique que la même personne endosse dans certaines organisations les deux responsabilités.