Pour beaucoup, l’Intelligence Artificielle ne serait possible qu’avec énormément de données. Les GAFAMI (Google, Apple, Facebook, Amazon, Microsoft, IBM) seraient les seuls à pouvoir créer de la “vrai IA”, car ce sont eux qui disposent des plus grandes bases de données. Contrairement à l’Asie qui peut se targuer de leur faire concurrence grâce à la puissance des BATX (Baidu, Alibaba, Tencent et Xiaomi), l’Europe n’a pas de candidat crédible. Vient s’ajouter à cela un nouveau projet Européen de régulation de la “data” : la GDPR. Au 25 Mai 2018, les entreprises devront rendre des comptes à leur utilisateurs, et leur donner le pouvoir de refuser la collecte de données, ou de les effacer à postériori.
Est-ce qu’on a tué l’avenir de l’Europe sur la scène mondiale de l’IA ?
IA et GDPR : Là où ça coince
La quantité de données est une limite pour les IA qui s’en alimentent. Plus de donnée, c’est plus d’intelligence.
Ces algorithmes basés sur la donnée sont le plus souvent des boîtes noires statistiques. Il est difficile de décrire quel est précisément le traitement fait de la donnée, et surtout, il est difficile de justifier quels sont les données choisies pour le traitement.
L’idée de ces algorithmes boites noires, c’est justement de leur laisser toute liberté pour prendre les décisions les plus efficaces, en s’appuyant s’il le faut sur des corrélations qu’un humain n’aurait pas imaginé. La bonne stratégie étant donc de récolter le maximum de données par défaut. On ne sait pas ce qui en sera fait, mais l’algorithme en a peut-être besoin.
D’après la GDPR, le résultat de l’exploitation des données peut être conservé, même après demande de la suppression des données par l’utilisateur, si et seulement si ce résultat ne permet pas de retrouver son identité, quel que soit le moyen utilisé. Mais certains machine learning ont besoin de garder la donnée pour fonctionner efficacement, notamment parce que l’apprentissage est redémarré plusieurs fois. On recourt alors à l’anonymisation. Hors l’anonymisation, tout comme d’autres procédés, ne suffit pas toujours à assurer la confidentialité des données, lorsque l’exploitation des données est publique.
On se souvient de la publication des données d’utilisation des velibs à Paris. Bien que le fichier soit anonymisé, il était tout à fait possible de deviner l’identité d’un utilisateur et donc d’avoir accès à tous ses déplacements. C’est pourquoi respecter la GDPR pourrait affecter le machine learning.
Les utilisateurs sont pris en otage des algorithmes
Et dans les faits ? Les utilisateurs vont-ils limiter l’accès à leurs données ? Dans beaucoup de secteurs professionnels, et de plus en plus, il est impensable de se passer d’un grand nombre d’outils numériques. Beaucoup de services ne peuvent pas fonctionner sans les données utilisateurs. Concrètement, l’utilisateur devra probablement choisir entre l’usage de sa donnée et l’abandon pur et simple de l’application.
Malgré des prises de conscience quant à l’importance que peuvent avoir les données personnelles, et quant au mauvais usage qui peut en être fait, on imagine très difficilement un abandon massif des plateformes populaires par les utilisateurs.
Si certaines entreprises peuvent éventuellement en souffrir, ce sont celles qui n’ont pas le poids d’affirmer une exclusivité suffisante de leurs services, et dont l’usage de données serait un désavantage pour leur clients.
Un frein pour la relation entre startups et grandes entreprises
Les responsables des systèmes d’informations sont tiraillés entre la nécessité de sécurité, et une demande d’innovation. Pour les grandes entreprises, le choix se porte sans surprise davantage vers la sécurité, au détriment de l’innovation et des relations avec les petites entreprises. En effet, l’administratif est un véritable frein pour leur relation.
Pour les startups, le temps de finalisation d’un contrat est douloureux stratégiquement et financièrement. Ce temps est allongé par les responsables SI qui imposent beaucoup de contraintes, dont certaines demandent le développement de politique de sécurités spécifiques, que les startups développent rarement spontanément. Évidemment, la contrainte va être d’autant plus ralentissante que le service proposé utilise des données sensibles, et dans une grande quantité. A travers cela, c’est l’IA qui est en première ligne de mire. Le contrat peut même exiger des modifications organisationnelles importantes de la startup, comme par exemple le changement de sous-traitant pour l’hébergement des serveurs, ou le remplacement d’une technologie ou d’un algorithme par un autre.
L’IA par la data reste une idéologie
La mode est au machine learning, et ce pour trois raisons majeures. D’abord, il y a évidemment une augmentation continue de la puissance de calcul. Pour le machine learning c’est une limite, ce qui laisse penser que les blocages algorithmiques actuels ne sont jamais que temporaires. D’autre part il y a la difficulté pour beaucoup d’entreprises dont le coeur de métier est l’innovation digitale, en particulier TPE et PME, à proposer une approche pluridisciplinaire.
Le machine learning est arrangeant parce qu’il est notablement agnostique des données qu’il traite, et permet donc de traiter des problèmes divers tout en conservant une homogénéité dans la culture d’entreprise. En somme, on intègre plus facilement des programmeurs et datascientists plutôt que des universitaires ou des chercheurs.
Enfin, le machine learning porte en lui le fantasme d’une intelligence émergente, un chemin vers la singularité qui serait la seule forme de vraie IA. Cette vision est largement répandue dans les milieux transhumanistes, dont certaines GAFAMI dont Google en particulier sont marqués.
Moins de data, plus d’intelligence
Une approche opposée à celle de la boite noire statistique qu’est le machine learning, c’est celle de l’IA explicable, utilisant par exemple de la modélisation ou une approche symbolique.
Si le Machine Learning a un avantage très marqué sur certaines tâches précises comme le traitement d’images, la plupart des IA qui intercèdent dans notre quotidien fonctionnent sur une base explicable. C’est à dire qu’il s’agit de procédés clairs, souvent complexes, mais qui correspondent à un raisonnement compréhensible par un humain.
La montée de l’IA explicable redore le blason de cette approche qui est considérée comme de “l’IA à l’ancienne”, bien que l’IA ne soit pas beaucoup plus ancienne que le Machine Learning (tous deux apparus dans les années 50).
Cette approche a des avantages forts : Tout d’abord celui de s’abreuver de travaux de modélisation issus de différentes disciplines, dont en particulier les sciences humaines. Ensuite, elle est compatible avec une nécessité éthique de l’IA ; l’approche statistique étant très difficile à auditer. Et surtout, c’est une direction qui se passe plus facilement de données. La GDPR n’est plus une contrainte, c’est un avantage commercial.
Dans l’idéologie de la data toute puissante, l’Europe n’aurait pas trouvé sa place dans l’IA, et la GDPR serait une régulation inutile et destructive. Dans les faits, l’application de la GDPR est progressive, et les effets sur le secteur de l’IA sont variables. Ce sont les petites entreprises innovantes et celles à faible compétences digitales qui vont possiblement en souffrir le plus. C’est donc bien un frein pour les startups du secteur de l’IA, dont les technologies reposent fortement sur la donnée. Elles sont nombreuses de part la mode du machine learning. En parallèle, l’IA explicable est moins affectée. Pouvoir faire de l’IA sans avoir besoin d’assimiler massivement de la donnée donne une vision différente sur la place de l’Europe dans l’IA, et met en lumière l’importance du lien entre les startups et la recherche.
Est-ce qu’on a tué l’avenir de l’Europe sur la scène mondiale de l’IA ?
IA et GDPR : Là où ça coince
La quantité de données est une limite pour les IA qui s’en alimentent. Plus de donnée, c’est plus d’intelligence.
Ces algorithmes basés sur la donnée sont le plus souvent des boîtes noires statistiques. Il est difficile de décrire quel est précisément le traitement fait de la donnée, et surtout, il est difficile de justifier quels sont les données choisies pour le traitement.
L’idée de ces algorithmes boites noires, c’est justement de leur laisser toute liberté pour prendre les décisions les plus efficaces, en s’appuyant s’il le faut sur des corrélations qu’un humain n’aurait pas imaginé. La bonne stratégie étant donc de récolter le maximum de données par défaut. On ne sait pas ce qui en sera fait, mais l’algorithme en a peut-être besoin.
D’après la GDPR, le résultat de l’exploitation des données peut être conservé, même après demande de la suppression des données par l’utilisateur, si et seulement si ce résultat ne permet pas de retrouver son identité, quel que soit le moyen utilisé. Mais certains machine learning ont besoin de garder la donnée pour fonctionner efficacement, notamment parce que l’apprentissage est redémarré plusieurs fois. On recourt alors à l’anonymisation. Hors l’anonymisation, tout comme d’autres procédés, ne suffit pas toujours à assurer la confidentialité des données, lorsque l’exploitation des données est publique.
On se souvient de la publication des données d’utilisation des velibs à Paris. Bien que le fichier soit anonymisé, il était tout à fait possible de deviner l’identité d’un utilisateur et donc d’avoir accès à tous ses déplacements. C’est pourquoi respecter la GDPR pourrait affecter le machine learning.
Les utilisateurs sont pris en otage des algorithmes
Et dans les faits ? Les utilisateurs vont-ils limiter l’accès à leurs données ? Dans beaucoup de secteurs professionnels, et de plus en plus, il est impensable de se passer d’un grand nombre d’outils numériques. Beaucoup de services ne peuvent pas fonctionner sans les données utilisateurs. Concrètement, l’utilisateur devra probablement choisir entre l’usage de sa donnée et l’abandon pur et simple de l’application.
Malgré des prises de conscience quant à l’importance que peuvent avoir les données personnelles, et quant au mauvais usage qui peut en être fait, on imagine très difficilement un abandon massif des plateformes populaires par les utilisateurs.
Si certaines entreprises peuvent éventuellement en souffrir, ce sont celles qui n’ont pas le poids d’affirmer une exclusivité suffisante de leurs services, et dont l’usage de données serait un désavantage pour leur clients.
Un frein pour la relation entre startups et grandes entreprises
Les responsables des systèmes d’informations sont tiraillés entre la nécessité de sécurité, et une demande d’innovation. Pour les grandes entreprises, le choix se porte sans surprise davantage vers la sécurité, au détriment de l’innovation et des relations avec les petites entreprises. En effet, l’administratif est un véritable frein pour leur relation.
Pour les startups, le temps de finalisation d’un contrat est douloureux stratégiquement et financièrement. Ce temps est allongé par les responsables SI qui imposent beaucoup de contraintes, dont certaines demandent le développement de politique de sécurités spécifiques, que les startups développent rarement spontanément. Évidemment, la contrainte va être d’autant plus ralentissante que le service proposé utilise des données sensibles, et dans une grande quantité. A travers cela, c’est l’IA qui est en première ligne de mire. Le contrat peut même exiger des modifications organisationnelles importantes de la startup, comme par exemple le changement de sous-traitant pour l’hébergement des serveurs, ou le remplacement d’une technologie ou d’un algorithme par un autre.
L’IA par la data reste une idéologie
La mode est au machine learning, et ce pour trois raisons majeures. D’abord, il y a évidemment une augmentation continue de la puissance de calcul. Pour le machine learning c’est une limite, ce qui laisse penser que les blocages algorithmiques actuels ne sont jamais que temporaires. D’autre part il y a la difficulté pour beaucoup d’entreprises dont le coeur de métier est l’innovation digitale, en particulier TPE et PME, à proposer une approche pluridisciplinaire.
Le machine learning est arrangeant parce qu’il est notablement agnostique des données qu’il traite, et permet donc de traiter des problèmes divers tout en conservant une homogénéité dans la culture d’entreprise. En somme, on intègre plus facilement des programmeurs et datascientists plutôt que des universitaires ou des chercheurs.
Enfin, le machine learning porte en lui le fantasme d’une intelligence émergente, un chemin vers la singularité qui serait la seule forme de vraie IA. Cette vision est largement répandue dans les milieux transhumanistes, dont certaines GAFAMI dont Google en particulier sont marqués.
Moins de data, plus d’intelligence
Une approche opposée à celle de la boite noire statistique qu’est le machine learning, c’est celle de l’IA explicable, utilisant par exemple de la modélisation ou une approche symbolique.
Si le Machine Learning a un avantage très marqué sur certaines tâches précises comme le traitement d’images, la plupart des IA qui intercèdent dans notre quotidien fonctionnent sur une base explicable. C’est à dire qu’il s’agit de procédés clairs, souvent complexes, mais qui correspondent à un raisonnement compréhensible par un humain.
La montée de l’IA explicable redore le blason de cette approche qui est considérée comme de “l’IA à l’ancienne”, bien que l’IA ne soit pas beaucoup plus ancienne que le Machine Learning (tous deux apparus dans les années 50).
Cette approche a des avantages forts : Tout d’abord celui de s’abreuver de travaux de modélisation issus de différentes disciplines, dont en particulier les sciences humaines. Ensuite, elle est compatible avec une nécessité éthique de l’IA ; l’approche statistique étant très difficile à auditer. Et surtout, c’est une direction qui se passe plus facilement de données. La GDPR n’est plus une contrainte, c’est un avantage commercial.
Dans l’idéologie de la data toute puissante, l’Europe n’aurait pas trouvé sa place dans l’IA, et la GDPR serait une régulation inutile et destructive. Dans les faits, l’application de la GDPR est progressive, et les effets sur le secteur de l’IA sont variables. Ce sont les petites entreprises innovantes et celles à faible compétences digitales qui vont possiblement en souffrir le plus. C’est donc bien un frein pour les startups du secteur de l’IA, dont les technologies reposent fortement sur la donnée. Elles sont nombreuses de part la mode du machine learning. En parallèle, l’IA explicable est moins affectée. Pouvoir faire de l’IA sans avoir besoin d’assimiler massivement de la donnée donne une vision différente sur la place de l’Europe dans l’IA, et met en lumière l’importance du lien entre les startups et la recherche.