Attention: les suppositions mettent en péril la Data Science


Rédigé par le 3 Juillet 2016

Combien de fois avez-vous entendu : « C’est comme ça que cela marche, est-ce vous pouvez prédire les comportements des clients dans ce sens …” ? Quand une personne laisse sa voiture chez le garagiste, elle n’essaye pas d'influencer la méthode de réparation. Elle explique le problème et éventuellement l’usage de sa voiture. Pourquoi procède-t-on différemment pour les projets de Data Science? Pourquoi de nombreuses personnes aujourd’hui considèrent que ce sont de projets faciles, et essaient d'influencer ces initiatives sans aucune compétence professionnelle?



Abed Ajraou, Director Data & Insights chez First Utility.
Citizen Data Scientists

Ce nouveau rôle souligné par Gartner ne nous aide pas à résoudre ce problème. Il n’est pas rare de voir un inexpérimenté Data bidouilleur utilisant une régression linéaire sur des données en séries temporelles. Cette personne va s'auto-déclarer Data Scientist et créer ainsi de la confusion dans l’entreprise. Pire que cela, la méthode choisie pour ce type de projet est clef. Les initiatives de Data Sciences ne sont pas des projets IT classiques avec des besoins bien définis et un livrable bien qualifié. Nous devons laisser parler complètement la donnée sans aucune intuition ni supposition, qui créerait du bruit et pousserait l’initiative dans la mauvaise direction. Quelques managers sont maintenant tellement excités par ce type de projets, qu’ils ne réalisent pas qu’il faille un background professionnel pour les mener à bien.

Le temps de l’explication est fini!

Les départements Business aiment comprendre et souvent nous avons les répliques suivantes “Pourquoi?” ou “Je ne comprends pas, je ne peux l’utiliser” ou encore “désolé, je ne comprends cette corrélation …”. Encore une fois, combien de personnes sont capables d’expliquer comment fonctionne un smartphone techniquement? Probablement seulement les scientifiques qui travaillent dans ce domaine, n’est-ce pas? Ainsi, pourquoi certains ressentent le besoin de comprendre le résultat d’un algorithme de machine learning? L’exemple classique qui illustre ceci est Amazon. La suggestion de produits n’utilise aucune logique dans la classification des produits, mais plutôt le résultat de ce que les personnes achètent ou veulent acheter.  Il faudrait passer beaucoup de temps pour comprendre pourquoi après avoir acheté un roman d'aventures, Amazon suggère un pot de peinture. Le machine learning n’est pas fait pour donner une explication, mais pour donner le meilleur résultat business pour un problème précis et ceci en utilisant des données souvent complexes.

Quelques conseils pour avancer

Lors du lancement d’un nouveau projet de Data Science, quelques conseils pour maximiser les chances d’avoir un bon rendu:
1. Avoir une très bonne connaissance de l’objectif business. S’il n’est pas clair dès le début, aidez-vous d’un « Business Analyst » pour comprendre quel est précisément le problème que l’on essaye de résoudre.
2. Supprimer toutes hypothèses ou suppositions. Ne vous faites pas influencer par une personne qui souhaiterait tirer un avantage des conclusions ou qui essayerait de diriger le projet en exposant ses idées.
3. Il y a quelques années, je conseillais d’avoir un sponsor. Dorénavant je précise qu’il faut avoir le bon sponsor, c’est-à-dire une personne qui a une responsabilité business dans l’entreprise et qui a une réelle compréhension de la différence entre un modèle statistique et une initiative machine learning.




Dans la même rubrique :