Gérer les défis de l'IA : risques et conformité dans les industries réglementées


Rédigé par Virginie Brard, Fivetran le 10 Janvier 2025

La gouvernance des données et la sécurité sont devenues des défis majeurs pour les dirigeants qui adoptent l'IA. Selon une récente enquête menée auprès de 300 dirigeants d'entreprise publiée dans le rapport MIT Technology Review Insights, 44 % d'entre eux considèrent ces problématiques comme des obstacles majeurs à leurs initiatives liées à l'IA. Ces défis sont particulièrement préoccupants dans les secteurs réglementés tels que les services publics et les services financiers, où les enjeux de conformité et de protection des données sont particulièrement élevés.



Virginie Brard, Regional leader France et Benelux chez Fivetran
La complexité découle en grande partie d'une dépendance croissante à l'égard des intégrations de système à système. Gartner prévoit que d'ici 2026, plus de 80 % des entreprises auront utilisé des API d'IA générative ou déployé des applications basées sur l'IA générative, ce qui souligne le besoin croissant de gérer les données à travers des systèmes interconnectés.
Des cadres de sécurité et de gouvernance robustes sont plus importants que jamais. Si les organisations ne considèrent pas ces mécanismes comme essentiels à leur activité, leurs ambitions en matière d'IA risquent de ne pas être à la hauteur.

Comprendre les risques liés à la sécurité des données en matière d'IA

De nombreuses grandes entreprises centralisent leurs données opérationnelles dans des data lakes ou des warehouses afin d'en extraire des informations. Bien que cette approche ait ses mérites, la mise en place de contrôles d'accès aux données appropriés pour les cas d'utilisation de l'IA en aval présente un risque non négligeable. L'accès aux données du système source peut être conforme aux réglementations SOX, conçues pour empêcher les délits d'initiés en limitant l'accès.

Les données sensibles résidant à la fois dans le système d'origine et dans le système centralisé peuvent doubler la charge de travail des équipes de sécurité, compliquant les examens d'accès et la gouvernance. Lorsque l'IA doit accéder à ces données, il est extrêmement difficile de reproduire les structures d'autorisation existantes pour l'IA. Les mécanismes de contrôle sont totalement différents - un data lake basé sur des blobs (Binary Large Object) S3 n'a pas les mêmes contrôles d'accès basés sur des lignes que les systèmes de gestion de données traditionnels.

Les offres de conformité doivent s'assurer que les outils et contrôles adéquats sont en place pour surveiller et gérer à la fois les données et leur utilisation. Pour la plupart des entreprises, il s'agit là d'un tout nouveau défi.

L’importance de sécuriser les données dans les modèles IA

Croire que les données introduites dans les modèles IA ne nécessitent pas de mesures de sécurité supplémentaires pour les protéger est une idée fausse et malheureusement très répandue actuellement. Cela peut entraîner des vulnérabilités importantes, en particulier lors de l'utilisation de services d'IA tiers. Les données utilisées pour former les modèles pourraient être exposées par le biais de requêtes, en particulier si les modèles ne sont pas correctement anonymisés ou s'ils sont utilisés dans des environnements moins sécurisés. Ce risque est accru dans des secteurs comme la santé, où les failles peuvent entraîner des violations de réglementations.

Le vecteur d'attaque est similaire à celui des attaques par injection SQL classiques. Des chercheurs ont pu extraire des données sensibles de ChatGPT à l'aide de prompts simples, notamment des adresses électroniques, des noms et des numéros de téléphone. Il faut donc imaginer ce qui se passerait si l'IA était entraînée sur les dossiers médicaux électroniques (DME) d'un grand établissement de santé.

Gartner souligne l'importance de se concentrer sur la gestion de la confiance, du risque et de la sécurité de l'IA (AI TRiSM), qui comprend la protection des données, l'interprétabilité des modèles et la résistance aux attaques adverses. Ne pas gérer ces risques peut entraîner des failles de sécurité, des pertes financières et une atteinte à la réputation d'une entreprise. Un exemple en a été donné avec Salesforce en 2018, lorsqu'une erreur d'API a exposé des données sensibles.

Stratégies pour une gouvernance robuste de l'IA

Pour atténuer ces risques, il est essentiel de mettre en œuvre des cadres de gouvernance des données solides. Il convient de définir des politiques claires en matière d'utilisation, d'accès et de stockage des données, et de les appliquer de manière cohérente à toutes les initiatives d'IA. Des techniques telles que la tokenisation ou la confidentialité différentielle, qui protègent les points de données individuels pendant l'entraînement du modèle, contribuent à réduire le risque de fuite de données.

Les RSSI devraient se consacrer en priorité à la résolution de problèmes complexes, par exemple en amenant leurs équipes à nettoyer et à sécuriser les données. Il est inutile de perdre du temps à réaliser des intégrations manuelles de données alors qu'il existe des solutions disponibles dans le commerce qui offrent une grande marge de manœuvre. Le succès des initiatives en matière d'IA repose sur une base de données sécurisée et conforme. Il faut se concentrer sur la résolution des défis liés aux données en premier lieu, le reste suivra, accélérant ainsi le succès de l'IA.

Voici quelques exemples montrant comment protéger les données une fois qu'elles sont arrivées à destination, que ce soit pour construire des modèles IA ou des rapports d'analyse.
● Gouvernance et auditabilité : le contrôle d'accès granulaire facilite la démocratisation du mouvement des données pour alimenter l'IA et le machine learning, par des méthodes entièrement gouvernées et auditables.
● Partage des métadonnées et journalisation des accès : le partage des métadonnées permet l'analyse des causes profondes et de l'impact, ainsi que l'audit et le lignage, aidant à déterminer l'origine et l'historique d'accès des données utilisées dans le machine learning.
● Qualité automatisée des données : la réplication automatisée et idempotente garantit que les données normalisées et dédupliquées sont propres et exemptes d'erreurs lorsqu'elles atteignent leur destination.
● Mécanismes de protection des données : le blocage des colonnes et le hachage permettent aux données sensibles d'atterrir dans un état anonymisé, mais toujours interrogeable, ou d'être omises de la synchronisation pour les cas où elles ne sont pas nécessaires pour les charges de travail d'IA et de machine learning.

La prévision de Gartner selon laquelle, d'ici 2026, 80 % des entreprises utiliseront des API d'IA générative met en évidence le besoin urgent pour les RSSI de développer des cadres de gouvernance complets en réponse aux progrès rapides de l'IA. Le contrôle et l'adaptation continus sont essentiels pour garantir que les cadres de gouvernance restent efficaces et alignés à la fois sur les exigences réglementaires et les objectifs organisationnels.

Plus le contrôle est important, moins le risque est élevé, même si le risque zéro est impossible à atteindre. Les entreprises doivent trouver un équilibre entre le potentiel économique de l'IA et les défis pratiques liés à la sécurité et à la gouvernance des données. S'il est tentant de précipiter l'adoption de l'IA pour obtenir un avantage concurrentiel, il faut garder à l'esprit la prédiction de Gartner selon laquelle près d'un tiers des projets d'IA générative seront abandonnés après la phase de validation du concept d'ici à la fin de 2025 en raison de l'augmentation des coûts et d'une valeur commerciale peu claire. Sans une base de données solide, les efforts en matière d'IA ont peu de chances d'aboutir.



Dans la même rubrique :