Florian Douetteau, CEO de Dataiku
Deep learning : du Cloud au hardware
Jusqu'ici, l'implication du hardware dans le deep learning s'est limitée au Cloud. Aujourd'hui, le système tend à s'adapter davantage au deep learning, en raison des enjeux que celui-ci représente. Cette évolution s'observe notamment chez les processeurs NVIDIA, ou encore dans les Bitcoins. Ces technologies mènent vers un hardware plus spécifique, plus à même d'accompagner les performances des systèmes d'apprentissage et de l'IA.
Machine learning : de nouvelles architectures
Les réseaux accusatifs générateurs (GAN) constituent une nouvelle architecture de machine learning particulièrement intéressante. Ces réseaux dits « neuronaux » et « concurrents » fonctionnent selon deux modes complémentaires : le premier consiste à produire des échantillons de données « naturels » à partir de données réelles, et le second consiste à distinguer les données réelles des imitations. Les deux modèles, appelés « génératif » et « discriminant », apprennent ainsi l'un de l'autre.
Le succès de cette nouvelle architecture est dû au fait qu'elle nécessite moins de paramètres. Ce qui accroît son efficacité : génération ou création d'images et de retouches d'images à haute résolution et de vidéos, synthèse texte et image, etc. Elle a également la capacité de s'entraîner avec un volume de données réduit et de fournir des prédictions sur les données manquantes.
Cependant, les GAN présentent des risques, notamment lorsqu'un des réseaux a assez appris pour se passer de l'apprentissage auprès d'un réseau concurrent.
Des innovations démocratisées
L'innovation est encore en décalage par rapport à l'usage réel des outils en entreprise. Les collaborateurs ont parfois des difficultés à mettre en pratique les innovations. 2018 devrait changer la donne : l'intensification du machine learning et son extension à un plus grand champ d'applications permettra aux bots d'acquérir une capacité de conversation plus proche des interactions humaines. Plus encore : les bibliothèques de données permettront une meilleure compréhension sémantique des échanges, améliorant leur efficacité.
Une synergie des compétences renforcée
En 2018, la complémentarité entre les métiers prend une dimension plus intense. Les projets futurs nécessiteront davantage de synergie entre les data scientists et les équipes commerciales, afin que chaque collaborateur ait un regard sur le déroulement entier d'une action.
Bien que chaque membre de l'entreprise puisse accéder à des données relevant d'une compétence précise, chaque action nécessite que toutes les expertises soient impliquées. De plus, les modèles de machine learning évoluent constamment. Il est donc fréquent que la personne qui effectue la mise à jour des modèles soit différente de celle qui les a créés. Ainsi, il est nécessaire d'intensifier la collaboration pour faciliter leur mise en application.
Data Gouvernance : vers une plus grande sécurité des données
Lorsqu'on parle de machine learning, on pense nécessairement aux données et aux nouvelles réglementations qui y sont liées, que les entreprises ne doivent pas ignorer. Le RGPD illustre parfaitement la préoccupation grandissante des gouvernements pour les enjeux liés à la sécurité des données. Aux entreprises, il revient donc d'évaluer les risques en amont et de faciliter la traçabilité du parcours des données pour s'assurer d'être en conformité avec la législation.
En l'occurrence, il peut être efficace de retracer le cycle de vie des données, en inscrivant celui-ci sur un support centralisé et accessible. Le cycle de vie des données doit comporter un inventaire des données existantes (données consommateurs, données d'identification ou encore données RH), des personnes qui y accèdent et y ont régulièrement recours, ainsi que des modes de traitement de la donnée (copie, suppression, etc.). De cette manière, il sera plus simple d'identifier les pratiques qui impliquent la manipulation de données personnelles et celles qui présentent des risques.
Biographie de Florian Douetteau
Florian Douetteau est CEO et co-fondateur de Dataiku. Diplômé de l'Ecole Normale Supérieure, il débute sa carrière chez Exalead, qu'il rejoint en 2000 pour mener une thèse sur le développement du langage de programmation Exascript. Il y restera jusqu'en 2011, occupant successivement plusieurs postes de direction et de vice-président dans les domaines de la recherche, du développement et du management de produits. Après un passage chez Is Cool Entertainment en tant que Chief Technology Officer, il intègre Criteo pendant quelques temps comme Data Scientist freelance, avant de se lancer dans l'aventure Dataiku en 2013.
Jusqu'ici, l'implication du hardware dans le deep learning s'est limitée au Cloud. Aujourd'hui, le système tend à s'adapter davantage au deep learning, en raison des enjeux que celui-ci représente. Cette évolution s'observe notamment chez les processeurs NVIDIA, ou encore dans les Bitcoins. Ces technologies mènent vers un hardware plus spécifique, plus à même d'accompagner les performances des systèmes d'apprentissage et de l'IA.
Machine learning : de nouvelles architectures
Les réseaux accusatifs générateurs (GAN) constituent une nouvelle architecture de machine learning particulièrement intéressante. Ces réseaux dits « neuronaux » et « concurrents » fonctionnent selon deux modes complémentaires : le premier consiste à produire des échantillons de données « naturels » à partir de données réelles, et le second consiste à distinguer les données réelles des imitations. Les deux modèles, appelés « génératif » et « discriminant », apprennent ainsi l'un de l'autre.
Le succès de cette nouvelle architecture est dû au fait qu'elle nécessite moins de paramètres. Ce qui accroît son efficacité : génération ou création d'images et de retouches d'images à haute résolution et de vidéos, synthèse texte et image, etc. Elle a également la capacité de s'entraîner avec un volume de données réduit et de fournir des prédictions sur les données manquantes.
Cependant, les GAN présentent des risques, notamment lorsqu'un des réseaux a assez appris pour se passer de l'apprentissage auprès d'un réseau concurrent.
Des innovations démocratisées
L'innovation est encore en décalage par rapport à l'usage réel des outils en entreprise. Les collaborateurs ont parfois des difficultés à mettre en pratique les innovations. 2018 devrait changer la donne : l'intensification du machine learning et son extension à un plus grand champ d'applications permettra aux bots d'acquérir une capacité de conversation plus proche des interactions humaines. Plus encore : les bibliothèques de données permettront une meilleure compréhension sémantique des échanges, améliorant leur efficacité.
Une synergie des compétences renforcée
En 2018, la complémentarité entre les métiers prend une dimension plus intense. Les projets futurs nécessiteront davantage de synergie entre les data scientists et les équipes commerciales, afin que chaque collaborateur ait un regard sur le déroulement entier d'une action.
Bien que chaque membre de l'entreprise puisse accéder à des données relevant d'une compétence précise, chaque action nécessite que toutes les expertises soient impliquées. De plus, les modèles de machine learning évoluent constamment. Il est donc fréquent que la personne qui effectue la mise à jour des modèles soit différente de celle qui les a créés. Ainsi, il est nécessaire d'intensifier la collaboration pour faciliter leur mise en application.
Data Gouvernance : vers une plus grande sécurité des données
Lorsqu'on parle de machine learning, on pense nécessairement aux données et aux nouvelles réglementations qui y sont liées, que les entreprises ne doivent pas ignorer. Le RGPD illustre parfaitement la préoccupation grandissante des gouvernements pour les enjeux liés à la sécurité des données. Aux entreprises, il revient donc d'évaluer les risques en amont et de faciliter la traçabilité du parcours des données pour s'assurer d'être en conformité avec la législation.
En l'occurrence, il peut être efficace de retracer le cycle de vie des données, en inscrivant celui-ci sur un support centralisé et accessible. Le cycle de vie des données doit comporter un inventaire des données existantes (données consommateurs, données d'identification ou encore données RH), des personnes qui y accèdent et y ont régulièrement recours, ainsi que des modes de traitement de la donnée (copie, suppression, etc.). De cette manière, il sera plus simple d'identifier les pratiques qui impliquent la manipulation de données personnelles et celles qui présentent des risques.
Biographie de Florian Douetteau
Florian Douetteau est CEO et co-fondateur de Dataiku. Diplômé de l'Ecole Normale Supérieure, il débute sa carrière chez Exalead, qu'il rejoint en 2000 pour mener une thèse sur le développement du langage de programmation Exascript. Il y restera jusqu'en 2011, occupant successivement plusieurs postes de direction et de vice-président dans les domaines de la recherche, du développement et du management de produits. Après un passage chez Is Cool Entertainment en tant que Chief Technology Officer, il intègre Criteo pendant quelques temps comme Data Scientist freelance, avant de se lancer dans l'aventure Dataiku en 2013.