Abed Ajraou, Director Data & Insights chez First Utility.
Citizen Data Scientists
Ce nouveau rôle souligné par Gartner ne nous aide pas à résoudre ce problème. Il n’est pas rare de voir un inexpérimenté Data bidouilleur utilisant une régression linéaire sur des données en séries temporelles. Cette personne va s'auto-déclarer Data Scientist et créer ainsi de la confusion dans l’entreprise. Pire que cela, la méthode choisie pour ce type de projet est clef. Les initiatives de Data Sciences ne sont pas des projets IT classiques avec des besoins bien définis et un livrable bien qualifié. Nous devons laisser parler complètement la donnée sans aucune intuition ni supposition, qui créerait du bruit et pousserait l’initiative dans la mauvaise direction. Quelques managers sont maintenant tellement excités par ce type de projets, qu’ils ne réalisent pas qu’il faille un background professionnel pour les mener à bien.
Le temps de l’explication est fini!
Les départements Business aiment comprendre et souvent nous avons les répliques suivantes “Pourquoi?” ou “Je ne comprends pas, je ne peux l’utiliser” ou encore “désolé, je ne comprends cette corrélation …”. Encore une fois, combien de personnes sont capables d’expliquer comment fonctionne un smartphone techniquement? Probablement seulement les scientifiques qui travaillent dans ce domaine, n’est-ce pas? Ainsi, pourquoi certains ressentent le besoin de comprendre le résultat d’un algorithme de machine learning? L’exemple classique qui illustre ceci est Amazon. La suggestion de produits n’utilise aucune logique dans la classification des produits, mais plutôt le résultat de ce que les personnes achètent ou veulent acheter. Il faudrait passer beaucoup de temps pour comprendre pourquoi après avoir acheté un roman d'aventures, Amazon suggère un pot de peinture. Le machine learning n’est pas fait pour donner une explication, mais pour donner le meilleur résultat business pour un problème précis et ceci en utilisant des données souvent complexes.
Quelques conseils pour avancer
Lors du lancement d’un nouveau projet de Data Science, quelques conseils pour maximiser les chances d’avoir un bon rendu:
1. Avoir une très bonne connaissance de l’objectif business. S’il n’est pas clair dès le début, aidez-vous d’un « Business Analyst » pour comprendre quel est précisément le problème que l’on essaye de résoudre.
2. Supprimer toutes hypothèses ou suppositions. Ne vous faites pas influencer par une personne qui souhaiterait tirer un avantage des conclusions ou qui essayerait de diriger le projet en exposant ses idées.
3. Il y a quelques années, je conseillais d’avoir un sponsor. Dorénavant je précise qu’il faut avoir le bon sponsor, c’est-à-dire une personne qui a une responsabilité business dans l’entreprise et qui a une réelle compréhension de la différence entre un modèle statistique et une initiative machine learning.
Ce nouveau rôle souligné par Gartner ne nous aide pas à résoudre ce problème. Il n’est pas rare de voir un inexpérimenté Data bidouilleur utilisant une régression linéaire sur des données en séries temporelles. Cette personne va s'auto-déclarer Data Scientist et créer ainsi de la confusion dans l’entreprise. Pire que cela, la méthode choisie pour ce type de projet est clef. Les initiatives de Data Sciences ne sont pas des projets IT classiques avec des besoins bien définis et un livrable bien qualifié. Nous devons laisser parler complètement la donnée sans aucune intuition ni supposition, qui créerait du bruit et pousserait l’initiative dans la mauvaise direction. Quelques managers sont maintenant tellement excités par ce type de projets, qu’ils ne réalisent pas qu’il faille un background professionnel pour les mener à bien.
Le temps de l’explication est fini!
Les départements Business aiment comprendre et souvent nous avons les répliques suivantes “Pourquoi?” ou “Je ne comprends pas, je ne peux l’utiliser” ou encore “désolé, je ne comprends cette corrélation …”. Encore une fois, combien de personnes sont capables d’expliquer comment fonctionne un smartphone techniquement? Probablement seulement les scientifiques qui travaillent dans ce domaine, n’est-ce pas? Ainsi, pourquoi certains ressentent le besoin de comprendre le résultat d’un algorithme de machine learning? L’exemple classique qui illustre ceci est Amazon. La suggestion de produits n’utilise aucune logique dans la classification des produits, mais plutôt le résultat de ce que les personnes achètent ou veulent acheter. Il faudrait passer beaucoup de temps pour comprendre pourquoi après avoir acheté un roman d'aventures, Amazon suggère un pot de peinture. Le machine learning n’est pas fait pour donner une explication, mais pour donner le meilleur résultat business pour un problème précis et ceci en utilisant des données souvent complexes.
Quelques conseils pour avancer
Lors du lancement d’un nouveau projet de Data Science, quelques conseils pour maximiser les chances d’avoir un bon rendu:
1. Avoir une très bonne connaissance de l’objectif business. S’il n’est pas clair dès le début, aidez-vous d’un « Business Analyst » pour comprendre quel est précisément le problème que l’on essaye de résoudre.
2. Supprimer toutes hypothèses ou suppositions. Ne vous faites pas influencer par une personne qui souhaiterait tirer un avantage des conclusions ou qui essayerait de diriger le projet en exposant ses idées.
3. Il y a quelques années, je conseillais d’avoir un sponsor. Dorénavant je précise qu’il faut avoir le bon sponsor, c’est-à-dire une personne qui a une responsabilité business dans l’entreprise et qui a une réelle compréhension de la différence entre un modèle statistique et une initiative machine learning.
Autres articles
-
Podcast: Mikaël Elbaz, associé chez Mazars, explique l'utilisation de Qlik dans la finance
-
Les métiers de la data science en 2020, le futur d’un passé régénéré
-
Podcast: Mehdi Chouiten, Datategy annonce une nouvelle plateforme de data science
-
Webinaire Decideo : Informatique Quantique, ses apports probables à la Science des Données
-
Re-écoutez le Webinaire TIBCO
Citizen Data Scientist : la science des données à la portée de tous