Grégory Herbert, VP Europe Continental Dataiku
Un an après la mise en application du RGPD, comment les entreprises gèrent-elles les données à caractère personnel ? Ce nouveau cadre réglementaire est-il source de ralentissement du traitement de la donnée ? Selon certains témoignages, des équipes de data scientists et data analysts éprouvent aujourd’hui bien des difficultés à naviguer dans ce nouveau cadre législatif, au point de voir une incompatibilité entre RGPD et traitement de la donnée. Pourtant, en vertu du RGPD, les personnes autorisées peuvent toujours traiter des données à caractère personnel dès lors qu’elles respectent les conditions du règlement notamment obtenir le consentement de la personne à collecter ses données à caractère personnel et restreindre et contrôler leur accès aux équipes autorisées selon les sujets et les objectifs.
Anonymiser et agréger les données : deux techniques pour cacher l’identité
Première étape pour satisfaire le RGPD : auditer les données personnelles présentent au sein de l’entreprise afin d'identifier les lacunes et les problèmes potentiels liés à leur utilisation. Ensuite, anonymiser les données pour permettre aux data scientists, data analysts et métiers de les utiliser dans le cadre de leurs traitements divers. Aujourd’hui plusieurs techniques d’anonymisation existent. Citons le hachage dont le principe consiste à modifier, via un algorithme, les données d’entrées pour leur attribuer une valeur différente en sortie. Autre technique : l’agrégation. Dans ce cas il s’agit de remplacer des données à caractère personnel par des valeurs médianes ou par la suppression de certaines valeurs de données à caractère personnel. Enfin, issue de la cryptographie, la confidentialité différentielle est une technique base sur l’introduction de caractères aléatoires au sein des data, permettant ainsi de poser des questions à des données sans révéler les caractéristiques d’identification spécifiques. Au delà de l’aspect non sécuritaire à 100% de cette technique d’anonymisation, travailler sur ce type de données est complexe.
Mais l’anonymisation n’est pas sans faille. Ainsi Netflix en a fait les frais dans le cadre de son concours de 2006 proposant de prédire les notes que les utilisateurs avaient attribuées à certains films. En effet des chercheurs de l'Université du Texas ont réussi à identifier certains utilisateurs alors que l’entreprise avait publié 100 millions de notes «anonymisées» autour d’un identifiant d'abonné, d’un titre de déménagement, de l'année de parution et de la date de notation.
Mais l’anonymisation n’est pas sans faille. Ainsi Netflix en a fait les frais dans le cadre de son concours de 2006 proposant de prédire les notes que les utilisateurs avaient attribuées à certains films. En effet des chercheurs de l'Université du Texas ont réussi à identifier certains utilisateurs alors que l’entreprise avait publié 100 millions de notes «anonymisées» autour d’un identifiant d'abonné, d’un titre de déménagement, de l'année de parution et de la date de notation.
Pseudonymisation plébiscitée par le RGPD
Autre technique : la pseudonymisation des données. Mentionnée dans le RGPD la pseudonymisation est définit comme suit dans le règlement : traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que celles-ci soient conservées séparément et soumises à des mesures techniques et organisationnelles permettant de garantir que ces données à caractère personnel ne soient attribuées à une personne physique identifiée ou identifiable. En d’autres termes si les données pseudonymisées sont des données à caractère personnel (non anonymisées), elles doivent être réservées à des projets spécifiques et répondre à une politique de conservation des données claire. Des conditions simples à respecter mais qui s’avèrent complexes pour les entreprises qui n’ont pas déployer des processus et des outils capables de centraliser et de gérer les autorisations des droits d’accès.
Aussi pour permettre aux data scientists et data analysts de travailler sereinement et efficacement la donnée, les entreprises doivent repenser l’organisation et mettre en oeuvre les solutions ad hoc. Ainsi, elles doivent centraliser les data dans un outil afin de favoriser une gouvernance simple des données et des projets et différencier celles à caractère personnel. Elles doivent également développer des processus simples de travail et former les collaborateurs à l’utilisation des données personnelles. Enfin, elles doivent assurer la surveillance et la mise en application des processus de données à caractère personnel.
Sans cette transformation, les entreprises risquent fort d’être non conformes au RGPD ou de se brider dans l’exploitation de la donnée. Dans les deux cas, l’entreprise est perdante.
Aussi pour permettre aux data scientists et data analysts de travailler sereinement et efficacement la donnée, les entreprises doivent repenser l’organisation et mettre en oeuvre les solutions ad hoc. Ainsi, elles doivent centraliser les data dans un outil afin de favoriser une gouvernance simple des données et des projets et différencier celles à caractère personnel. Elles doivent également développer des processus simples de travail et former les collaborateurs à l’utilisation des données personnelles. Enfin, elles doivent assurer la surveillance et la mise en application des processus de données à caractère personnel.
Sans cette transformation, les entreprises risquent fort d’être non conformes au RGPD ou de se brider dans l’exploitation de la donnée. Dans les deux cas, l’entreprise est perdante.
A propos de l'auteur : Bio Grégory Herbert, VP France, Dataiku
Grégory est Vice-Président en charge de la France chez Dataiku. Il fait bénéficier ses clients d’une longue expérience de conduite de projets de transformation digitale auprès d’organisations françaises et internationales. Aujourd’hui, il accompagne aux côtés des équipes de Dataiku, ses clients dans leur croissance autour de la donnée et leur fournit ainsi les moyens d'infuser plus largement la culture data par le biais de la collaboration à grande échelle. L’objectif de Dataiku est de proposer aux entreprises une plateforme permettant de centraliser le développement d'applications, d'outils de data science et de Machine Learning.