Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Gouverner l’intelligence artificielle : les données, leur qualité, leur conformité (4ème partie)


Rédigé par le 13 Mai 2024

Cet article est le quatrième d'une série complète consacrée à la gouvernance de l'intelligence artificielle.
Si vous souhaitez aborder le sujet de manière plus détaillée au travers d'un atelier-formation, vous pouvez vous inscrire à la formation organisée sur le sujet par Capgemini Institut.



Sommaire de la série d’articles sur la gouvernance de l'intelligence artificielle :


Les données sont au cœur du bon fonctionnement des modèles d’apprentissage machine, d’apprentissage profond, des LLMs, des RAGs, etc. Aucun modèle, aucun, n’est capable de comprendre notre monde, sans être passé par une phase d’entrainement.

Certains modèles sont capables d’apprendre seuls, en fonction bien sur des données qu’on leur fournit ; d’autres ont besoin de l’Être humain pour étiqueter préalablement les données. Mais c’est invariable, un modèle d’IA n’est rien sans les données qui lui permettront d’apprendre.

Facile donc d’imaginer que la qualité de ce que le modèle apprend dépend de la qualité des données qui lui servent de base d’apprentissage. En une phrase, on a tout dit ! Et le problème apparait.
Je fournis des données de qualité médiocre à mon modèle, il prévoira ou générera des résultats de qualité médiocre ! Ce n’est pourtant pas très compliqué à comprendre.

Alors comment faire ? En fait tout est déjà prévu, rien de nouveau, il suffit juste d’appliquer les bonnes pratiques liées à la gouvernance des données. Eh oui, en effet, déployer des outils d’IA en production sans gouvernance de données est aussi dangereux que de prendre le volant sans avoir passé le code !

La gouvernance des données, ce sont trois facettes : la connaissance (c’est le catalogue de données), la qualité des données utilisées, et enfin leur conformité.

Alors, IA ou tableau de bord, les enjeux sont les mêmes.

La connaissance tout d’abord. Si vous ne savez pas quelles données alimentent vos modèles d’IA, vous avez tout faux. Ou plus exactement vous prenez le risque que des données inadaptées soient utilisées. Donc première étape, référencer, cataloguer les données utilisées par les modèles. On utilisera d’ailleurs souvent une modélisation graphe pour connecter les données, les algorithmes qui les utilisent, et les personnes en charge. Donc, première étape, une cartographie, un catalogue de données.

Deuxième étape, la qualité. Deuxième en effet, car comme mesurer la qualité d’une donnée que l’on n’aurait pas, au préalable, référencée ? Donc mesurer, évaluer, quantifier la non-qualité. Ce n’est pas parce qu’à la machine à café, on a l’habitude d’entendre que cette donnée est fausse, qu’elle l’ait réellement. Si oui, dans quelle proportion ? Est-elle quand même utilisable ? On ne peut pas améliorer ce que l’on n’a pas mesuré. Une fois mesurée, on recherche les causes profondes de cette non-qualité. Cela ne sert à rien de corriger le stock de données si l’on n’a pas d’abord colmaté la fuite ! On évaluera à cette étape si la donnée peut être utilisée pour alimenter des algorithmes et on avisera les utilisateurs de l’état réel de sa qualité.

Enfin, troisièmement, la conformité. Ça ne vous choque pas d’alimenter un algorithme avec une donnée que vous n’avez pas le droit d’utiliser ? Pour des raisons de conformité RGPD, pour des raisons d’éthique, pour des raisons de conformité avec l’IA Act, etc. Donc les données utilisées par l’IA doivent être conformes, aucune échappatoire.

En résumé, préalablement à toute mise en production, les données utilisées par l’intelligence artificielle, doivent être cataloguées, leur qualité doit être mesurée, et leur conformité validée.
J’ai bien précisé, avant la mise en production. Que certains tests soient faits par les data scientists en mode « bac à sable » sur des données anonymisées, juste « pour voir ». C’est acceptable. Mais attention, la mise en production doit passer par les fourches caudines de la gouvernance des données et de l’IA.

Du point de vue des responsabilités en entreprise, on comprend donc les nombreuses intersections entre le responsable de la gouvernance des données, et celui en charge de la gouvernance de l’Intelligence Artificielle. Et il est logique que la même personne endosse dans certaines organisations les deux responsabilités.




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store