Alain Biancardi, Vice President Sales Expert System
Selon les termes du RGPD (Règlement Général sur la Protection des Données), en mai 2018, les entreprises devront montrer qu’elles sont capables de constituer un registre référençant traitements et processus internes manipulant des données à caractère personnel, prouver que ces données leur sont utiles et les dépersonnaliser. Les entreprises s’engagent donc à protéger cette data qui peut être un véritable vivier de données sensibles selon les secteurs d’activités. Comment l’intelligence artificielle peut-elle devenir un levier d’identification de ces données et comment mettre en place son processus de mise en conformité ?
La protection des données vaut avant tout pour les données sensibles
Les données sensibles désignent des éléments renvoyant à des informations à caractère identifiant, biométrique, idéologique, de santé, comportementales, financières, … relevant des données individuelles. Une fois recueillies dans des bases de données, des liens peuvent être établis entre ces informations et l’identité de leur propriétaire : il devient alors possible que ces données strictement confidentielles soient utilisées de façon malveillante par certains individus ou certaines entreprises, sans le consentement initial de leur propriétaire.
Selon les secteurs d’activité, certains contenus représentent de véritables viviers de données sensibles. Les secteurs B-to-C comme la banque-assurance, les télécoms ou le e-commerce sont les plus concernés par le RGPD car les départements marketing et relation client de ces sociétés analysent l’expérience et la voix du client (emails, verbatim, enquêtes), afin d’établir des profils détaillés de leurs clients leur permettant de leur proposer les services les plus adaptés à leurs besoins. Les documents touchant le domaine juridique tels que les contrats ou même les décisions de justice et les procès-verbaux regorgent également de données personnelles. On livre parfois volontairement une manne d’informations incroyable, que ce soit à des recruteurs à travers un curriculum vitae ou sur un forum médical. Enfin, et c’est peut-être le point le plus critique, les données personnelles de santé qu’on retrouve dans les dossiers patients concentrent des informations sensibles qu’on ne veut certainement pas voir piratées ou utilisées à mauvais escient.
Le véritable enjeu de la protection des données sensibles est donc d’empêcher toute identification ou cartographie par la data de leur propriétaire.
Processus de mise en conformité et identification des données sensibles
Les étapes d’un projet global de mise en conformité avec la réglementation de protection des données personnelles sont les suivantes : identification et classification des données, chiffrement et masquage des données, supervision des fichiers et des données, blocage des attaques, audit et reporting de conformité.
Dans ce processus, l’intelligence artificielle et notamment l’analyse sémantique prend en charge l’étape d’identification et de classification des données personnelles en détectant et en marquant les données sensibles à partir des contenus non structurés de l’entreprise. Les solutions d’intelligence artificielle fondées sur la sémantique permettent en effet l’identification automatique de n’importe quelle donnée personnelle (nom de personne, n° sécurité sociale, adresse, maladie, …) mais aussi de relations (distinction des rôles et des interactions entre les entités nommées).
L’analyse sémantique permet également d’aller plus loin dans le processus de mise en conformité RGPD en opérant les phases d’anonymisation / pseudonymisation qui peuvent être une option très pertinente pour la mise en œuvre de l’étape de masquage des données.
Constituer son équipe d’experts
Pour que leur projet de mise en conformité avec le règlement européen sur la protection des données soit réussi et efficace, les entreprises devront s’entourer des meilleurs experts, que ce soit au niveau de l’intégration du projet, au niveau juridique ou au niveau technologique, notamment pour l’anonymisation des données personnelles.
Ne pas se limiter aux données visibles de la personne est très important : les informations cachées dans les concepts et dans les mots peuvent également permettre d’identifier les individus. Il faut des dispositifs capables de comprendre ces données. En ce sens, l’intelligence artificielle est un outil stratégique pour un traitement des données plus rapide et plus précis et pour mieux détecter les données sensibles.
La protection des données vaut avant tout pour les données sensibles
Les données sensibles désignent des éléments renvoyant à des informations à caractère identifiant, biométrique, idéologique, de santé, comportementales, financières, … relevant des données individuelles. Une fois recueillies dans des bases de données, des liens peuvent être établis entre ces informations et l’identité de leur propriétaire : il devient alors possible que ces données strictement confidentielles soient utilisées de façon malveillante par certains individus ou certaines entreprises, sans le consentement initial de leur propriétaire.
Selon les secteurs d’activité, certains contenus représentent de véritables viviers de données sensibles. Les secteurs B-to-C comme la banque-assurance, les télécoms ou le e-commerce sont les plus concernés par le RGPD car les départements marketing et relation client de ces sociétés analysent l’expérience et la voix du client (emails, verbatim, enquêtes), afin d’établir des profils détaillés de leurs clients leur permettant de leur proposer les services les plus adaptés à leurs besoins. Les documents touchant le domaine juridique tels que les contrats ou même les décisions de justice et les procès-verbaux regorgent également de données personnelles. On livre parfois volontairement une manne d’informations incroyable, que ce soit à des recruteurs à travers un curriculum vitae ou sur un forum médical. Enfin, et c’est peut-être le point le plus critique, les données personnelles de santé qu’on retrouve dans les dossiers patients concentrent des informations sensibles qu’on ne veut certainement pas voir piratées ou utilisées à mauvais escient.
Le véritable enjeu de la protection des données sensibles est donc d’empêcher toute identification ou cartographie par la data de leur propriétaire.
Processus de mise en conformité et identification des données sensibles
Les étapes d’un projet global de mise en conformité avec la réglementation de protection des données personnelles sont les suivantes : identification et classification des données, chiffrement et masquage des données, supervision des fichiers et des données, blocage des attaques, audit et reporting de conformité.
Dans ce processus, l’intelligence artificielle et notamment l’analyse sémantique prend en charge l’étape d’identification et de classification des données personnelles en détectant et en marquant les données sensibles à partir des contenus non structurés de l’entreprise. Les solutions d’intelligence artificielle fondées sur la sémantique permettent en effet l’identification automatique de n’importe quelle donnée personnelle (nom de personne, n° sécurité sociale, adresse, maladie, …) mais aussi de relations (distinction des rôles et des interactions entre les entités nommées).
L’analyse sémantique permet également d’aller plus loin dans le processus de mise en conformité RGPD en opérant les phases d’anonymisation / pseudonymisation qui peuvent être une option très pertinente pour la mise en œuvre de l’étape de masquage des données.
Constituer son équipe d’experts
Pour que leur projet de mise en conformité avec le règlement européen sur la protection des données soit réussi et efficace, les entreprises devront s’entourer des meilleurs experts, que ce soit au niveau de l’intégration du projet, au niveau juridique ou au niveau technologique, notamment pour l’anonymisation des données personnelles.
Ne pas se limiter aux données visibles de la personne est très important : les informations cachées dans les concepts et dans les mots peuvent également permettre d’identifier les individus. Il faut des dispositifs capables de comprendre ces données. En ce sens, l’intelligence artificielle est un outil stratégique pour un traitement des données plus rapide et plus précis et pour mieux détecter les données sensibles.