Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Les dessous d’un projet de Data Science


Rédigé par Perrine Martin, VISEO le 10 Mai 2018

Après avoir accompagné plusieurs clients sur leurs problématiques data, VISEO propose de partager les étapes importantes de la bonne réalisation d’un projet.



Avant tout un arbitrage client

Perrine Martin, Consultante Data Scientist VISEO
Perrine Martin, Consultante Data Scientist VISEO
Lors d’un projet de Data Science, le client est au centre des décisions. Indépendamment de sa maturité, ses interventions vont être extrêmement structurantes et son implication primordiale dans la réussite d’un projet.

Amener le client vers un objectif atteignable

Choisir le bon objectif avant de se lancer

Deux typologies de demandes client se dégagent : les demandes précises et celles plus abstraites. Dans le premier cas, l’objectif à atteindre est clairement défini (par exemple, prédire au moins 3 jours à l’avance les pannes sur un composant d’une machine). Au contraire, une demande abstraite adressera une problématique plus globale (réduire le nombre de pannes).

Lorsque le client formule des demandes précises, le projet peut avancer à un bon rythme et les équipes se mobilisent sur un objectif clairement identifié.
Elles doivent cependant s’assurer que celui-ci est réalisable avec les données à disposition et faire preuve d’adaptabilité en modulant les objectifs du client en fonction de la qualité prédictive des données et du besoin des utilisateurs cibles.

En revanche, il est souvent complexe de satisfaire un client dont le besoin est trop abstrait. En effet, un manque de clarté de l’objectif et /ou des attendus d’un projet peut donner l’impression aux équipes de stagner et produire un effet déceptif auprès du client. De manière générale, cela peut entraîner une dérive du projet et mener à des résultats plus incertains.

Lorsqu’une telle situation se présente, une solution consiste à réaliser des ateliers en amont avec le client et les métiers afin de faire émerger des cas d’usage plus concrets.

Avec ou sans idée précise, il est conseillé de prendre des cas d’usage dont le retour sur investissements est mesurable, qui sont modélisables grâce aux données existantes et qui sont utiles pour les métiers afin de les mobiliser. Lors des ateliers de cadrage, il est également important d’évoquer le cadre juridique d’exploitation des données ainsi que les attentes du client sur le court et long terme.

L’équipe digitale de VISEO permet de réaliser des ateliers afin de faire émerger une idée commune répondant aux attentes de chacun.

La qualité des données

Un besoin primaire qui conditionne notre réussite

Il est commun de penser que, plus un Data Scientist aura de données à disposition, plus les résultats seront précis. Effectivement, pour réussir à obtenir les meilleures Smart Data, il est bon d’avoir du choix au sein des Big Data. Cela nous permet de tester de multiples croisements d’informations et de sélectionner uniquement les données les plus pertinentes pour l’étude d’un phénomène.
Cependant, la qualité prime sur la quantité. En effet, un dictionnaire de données à jour et des données cohérentes et représentatives du phénomène auront plus d’impact qu’une multitude de variables mal renseignées. Faire le bon choix en termes d’historique peut également permettre de limiter les problématiques de qualité, en prenant en compte de potentiels changements de systèmes, de sources, ou d’enregistrements des données.
Enfin, pour enrichir les données des clients, il est possible de les croiser avec de l’Open Data (Base SIRENE, RATP, météo, épidémiologie…).
Avant de démarrer un projet conséquent, une étape d’audit peut permettre de déterminer la Road Map la plus appropriée et ainsi éviter les déceptions. Cet audit, généralement accompagné d’ateliers, permet de confronter les attentes des décideurs, les connaissances métier des utilisateurs cibles et les données disponibles. Ces ateliers permettent à l’équipe de Data Science de s’approprier la problématique à traiter et d’échanger sur les données.

L’équipe VISEO Data Science, au-delà de ses compétences en termes de modélisations et en accompagnement, propose une offre nommée Data eXploration Lab, permettant d’auditer les données et s’assurer de la pertinence d’un investissement.

La modélisation - un choix commun avec le client

Dilemme entre performance et compréhension des résultats

Le Data Scientist peut utiliser des approches plus ou moins complexes en fonction des attentes des clients.
Certaines approches, considérées comme plus performantes offrent des résultats très précis (réseaux de neurones, SVM, …). Cependant, elles expliquent difficilement l’influence et la part des variables utilisées dans la réalisation du phénomène étudié.
D’autres approches, bien que considérées comme étant moins puissantes, permettent quant à elles de comprendre plus aisément les interactions et les liens qui existent entre les variables et l’objectif. Elles offrent ainsi des résultats moins précis mais plus interprétables.
Ce choix entre performance et interprétabilité dépend principalement du client mais il est également influencé par la problématique à modéliser. On préfèrera, par exemple, un modèle plus performant pour l’analyse d’images. À contrario, on pourra s’orienter sur des modèles interprétables pour des problématiques nécessitant la justification de la décision finale (octroi de crédit ou ciblage/reco marketing).
Enfin, il faut bien noter que la modélisation ne donnera jamais une précision absolue. Un tel résultat lors de la création d’un modèle correspond presque toujours à un problème d’overfitting. Cela signifie que le modèle s’est parfaitement adapté à l’échantillon de données servant à son apprentissage, mais pas à la problématique générale. La modélisation n’est donc pas en capacité de généraliser les résultats à de nouvelles données.

Un chemin itératif vers l’exploitation des résultats

L’industrialisation, pas toujours l’unique option finale

La technique
À la fin d’un projet, deux types de résultats sont présentés au client :
- Les résultats de la modélisation (prévisions, système de recommandations, analyse de textes, …),
- Des recommandations pour les analyses futures.
Les recommandations permettent de proposer des axes d’améliorations en termes de qualité de données ou de processus de collecte afin d’offrir des solutions pour améliorer les résultats et préparer une éventuelle industrialisation. En effet, l’un de nos principaux enjeux est de sensibiliser les clients aux problématiques data afin de leur permettre une meilleure compréhension des approches Data Driven. Les attentes des Data Scientist seront alors mieux appréhendées et les démarches futures plus efficaces.

Une amélioration continue
Enfin, la modélisation doit régulièrement être réévaluée et remise en cause. En effet, le phénomène étudié peut évoluer au fil du temps, il est donc important de surveiller les résultats produits. Il peut être nécessaire d’évaluer davantage de paramètres, de mettre à jour le modèle ou encore d’intégrer de nouvelles variables, si le contexte initial évolue.

L’organisation
La réalisation d’un POC et sa mise en production nécessitent deux approches différentes. Si l’industrialisation est l’objectif final, il est alors nécessaire de concevoir le sujet avec cette optique, afin de pouvoir démarrer les travaux rapidement.
Il est important que le client ait toutes les cartes en main avant de faire le choix de l’industrialisation. Le Data Scientist pourra émettre un premier avis statistique sur la qualité du modèle, mais c’est avant tout le client qui, au vu des résultats, des recommandations et de ses attentes initiales, devra choisir de mettre en production ou non l’ensemble du projet.
L’arrivée d’une approche de Data Science bouleverse le fonctionnement des métiers parfois ancré depuis plusieurs années. La réussite d’un projet s’appuie donc sur la capacité de l’entreprise à adapter sa façon de faire, à changer certains aspects de son organisation en prenant en compte les résultats de la modélisation.

VISEO propose également d’accompagner les clients dans le changement des habitudes lié à l’évolution digitale.




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store