Quelle solution de Data Science en entreprise : Développements spécifiques ou outil du marché ?


Rédigé par Olivier Fabre, Social Intelligence le 17 Juin 2018

Trouver l'équilibre entre les besoins des Data Scientists et les exigences de l'entreprise.



L'art du data scientist

Olivier FABRE, Social Intelligence
Les Data Scientists accueillent souvent les solutions de Data Science avec méfiance. En effet, les brillants étudiants en mathématiques sont souvent défiants à l'égard d'une boite noire supposée trouver de manière magique les meilleurs préparations de features et algorithmes. Ils leur préfèrent les développements spécifiques en R ou Python. D'autant que les plus passionnés d'entre eux sont des Kagglers (participants aux compétitions kaggle.com) pour qui le code est roi.
Pour le Data Scientist les avantages du code sont la souplesse et la maitrise de l'ensemble du process de modélisation. C'est aussi la garantie d'utiliser l'intégralité de leurs connaissances au service de la performance de la modélisation. Data Scientist est un métier passionnant à partir du moment où l'on peut s'exprimer dans ses modélisations et capitaliser son expérience dans de nouveaux projets.

Le dilemme des entreprises

Le dilemme pour les entreprises est d'une part humain et d'autre part organisationnel. Comment recruter et fidéliser des compétences rares et exigeantes, tout en mettant en place une organisation garantissant la productivité, le transfert de compétence et la maintenabilité des modèles en production ?
Les Data Scientists expérimentés sont des profils rares et exigeants. Au-delà du salaire, l’intérêt des missions proposées est sans aucun doute primordial. Ainsi, en cas d'ennui, il n'est pas rare qu'ils quittent leur employeur pour voir si l'herbe est plus verte ailleurs. Que le Data Scientist se sente bridé par l'utilisation d'un logiciel dans son métier, n'est pas chose à le motiver.

Le passage de la Data Science artisanale à l'industrialisation

Tant que la Data Science reste à l'état de POC, l'utilisation de développements spécifiques n'a pas d'impact fâcheux. En revanche, il faut être vigilant dès que les modélisations doivent être mises en production. C'est l'enjeu du passage de la Data Science artisanale à la Data Science industrielle. Outre les délais de production plus longs et les difficultés de construire des projets collaboratifs, la maintenabilité dans le temps des modélisations rédigées en code, est le point de vigilance stratégique.
Les évolutions des besoins et de la technologie rendent très vite obsolètes les développements. La perte de compétence est donc un risque très impactant.
Quelque soit le langage choisi, en data science plus que dans tout autre domaine, le développement spécifique n'est compréhensible que par celui qui l'a rédigé : logique de nommage, organisation des scripts, techniques de préparation, choix des librairies... D'autre part, la documentation est très souvent négligée car les modèles sont construits de manière itérative. Il faut donc trouver une solution logicielle et/ou organisationnelle permettant de sécuriser ses projets de Data Science.

Quelles solutions ?

Les entreprises qui ont les moyens, construisent des cahiers de « best practices » de développements et pilotent leurs projets par équipes de Data Scientists, assurant ainsi une base de travail commune et le transfert de compétences. Les solutions logicielles acceptent l'intégration de code (R ou Python), ce qui résout au moins partiellement les effets de bord du développement spécifique.

Mais n'oublions pas qu'aujourd'hui, pour un Data Scientist l'utilisation de code reste un mal nécessaire pour accomplir sa mission et que l'idéal serait une solution permettant la même liberté que le code mais sans rédiger de code.



Dans la même rubrique :