Photo by Aurélien Lemasson-Théobald on Unsplash
Les usages de la data sont incontournables dans la transformation digitale des entreprises. Il est désormais courant que le département innovation d’une entreprise dispose d’un département data. Ce phénomène s’observe particulièrement dans le secteur bancaire, où la data science permet d’optimiser les campagnes de marketing, de raccourcir les délais de traitement, et de mieux anticiper les besoins des clients.
Margo accompagne un acteur majeur de la banque pour mettre en place un moteur de scoring de crédits à destination de ses clients professionnels, grâce aux outils du machine learning.
Les objectifs (ROI) sont multiples d’un point de vue métier : le moteur de scoring devra identifier proactivement les clients susceptibles de souscrire à un crédit, d’augmenter le volume des clients ciblés, tout en optimisant le taux de solvabilité. D’un point de vue technique, l’objectif est de dépasser la phase de la preuve de concept (PoC) et de réaliser une mise en production mensuelle du moteur de scoring.
La réalisation d’un tel projet met les datascientists au coeur d’interactions qui impliquent différents métiers de la banque: le département marketing pour identifier les besoins et pour bénéficier de l’expertise métier; le département des risques pour garantir la conformité et l'auditabilité des modèles; et le département informatique pour disposer des ressources nécessaires aux développements.
Margo accompagne un acteur majeur de la banque pour mettre en place un moteur de scoring de crédits à destination de ses clients professionnels, grâce aux outils du machine learning.
Les objectifs (ROI) sont multiples d’un point de vue métier : le moteur de scoring devra identifier proactivement les clients susceptibles de souscrire à un crédit, d’augmenter le volume des clients ciblés, tout en optimisant le taux de solvabilité. D’un point de vue technique, l’objectif est de dépasser la phase de la preuve de concept (PoC) et de réaliser une mise en production mensuelle du moteur de scoring.
La réalisation d’un tel projet met les datascientists au coeur d’interactions qui impliquent différents métiers de la banque: le département marketing pour identifier les besoins et pour bénéficier de l’expertise métier; le département des risques pour garantir la conformité et l'auditabilité des modèles; et le département informatique pour disposer des ressources nécessaires aux développements.
Objectif : réaliser un moteur de scoring de crédit
La première phase du projet consiste à réaliser le PoC à travers la modélisation du moteur à partir des informations bancaires. L’expertise du métier lors de cette étape est cruciale, elle permet de cadrer les besoins et d’orienter le choix des variables explicatives des scores.
Le moteur de scoring répond à deux interrogations par deux modèles de machine learning. Le premier modèle est le score d’appétence, il répond à la question : “mon client est-il intéressé par un crédit ?”. Le deuxième modèle est le score d’octroi, il répond à la question : “mon client va-t-il rembourser son crédit sans incident ?”. La préconisation finale dépend des deux scores calculés pour chaque client.
La modélisation se fait par itérations successives entre la sélection des variables explicatives, leurs pré-traitements, leur intégration dans un modèle prédictif. Les choix des paramètres de chaque étape n’est pas uniquement guidé par le ROI métier. Il est important de prendre en compte les contraintes techniques et réglementaires. Ainsi, les données doivent s’affranchir de toute information nominative (nom, prénom, ..), et de tout marqueur social pouvant porter préjudice (département, catégorie socio-professionnelle, ...).
Les contraintes techniques orientent le choix du langage de programmation et des librairies afin d'accélérer le prototypage, et d’anticiper la mise en production du PoC. Le langage Python présente une solution bien adaptée pour un projet data, comme il existe une multitude de librairies open-source pour la manipulation des données tabulaires (exemple: pandas), la visualisation (exemple: seaborn), ou le machine learning (exemple: scikit-learn).
Le moteur de scoring répond à deux interrogations par deux modèles de machine learning. Le premier modèle est le score d’appétence, il répond à la question : “mon client est-il intéressé par un crédit ?”. Le deuxième modèle est le score d’octroi, il répond à la question : “mon client va-t-il rembourser son crédit sans incident ?”. La préconisation finale dépend des deux scores calculés pour chaque client.
La modélisation se fait par itérations successives entre la sélection des variables explicatives, leurs pré-traitements, leur intégration dans un modèle prédictif. Les choix des paramètres de chaque étape n’est pas uniquement guidé par le ROI métier. Il est important de prendre en compte les contraintes techniques et réglementaires. Ainsi, les données doivent s’affranchir de toute information nominative (nom, prénom, ..), et de tout marqueur social pouvant porter préjudice (département, catégorie socio-professionnelle, ...).
Les contraintes techniques orientent le choix du langage de programmation et des librairies afin d'accélérer le prototypage, et d’anticiper la mise en production du PoC. Le langage Python présente une solution bien adaptée pour un projet data, comme il existe une multitude de librairies open-source pour la manipulation des données tabulaires (exemple: pandas), la visualisation (exemple: seaborn), ou le machine learning (exemple: scikit-learn).
Du PoC à la prod
Au delà des ROI mesurés lors du prototypage, l’impact réel du moteur de scoring dépend de son industrialisation et de son utilisation.
L’industrialisation d’un PoC data est probablement l’étape la plus délicate. Elle se caractérise par un temps plus long que celui de la modélisation, où les interactions entre les datascientists, les équipes IT et les “métiers” s’intensifient.
L’industrialisation du moteur de scoring nécessite plusieurs homologations préalables comme la validation des modèles par la direction des risques, ou la conformité RGPD des données. Dans ce sens, les documentations technique et fonctionnelle sont les pièces centrales des de ces homologations, elles décrivent de manière exhaustive le périmètre et la construction du moteur de scoring.
La “passation” du PoC aux équipes IT est critique car elle détermine la viabilité du projet. C’est pourquoi il est essentiel qu’un PoC ne dépende pas de simples scripts dont les résultats sont difficiles à reproduire. Une implémentation “production-ready” qui respecte les normes et qui inclut la gestion des versions, le logging, le monitoring et le tests unitaires et d’intégration, permet une passation plus aisée.
L’industrialisation d’un PoC data est probablement l’étape la plus délicate. Elle se caractérise par un temps plus long que celui de la modélisation, où les interactions entre les datascientists, les équipes IT et les “métiers” s’intensifient.
L’industrialisation du moteur de scoring nécessite plusieurs homologations préalables comme la validation des modèles par la direction des risques, ou la conformité RGPD des données. Dans ce sens, les documentations technique et fonctionnelle sont les pièces centrales des de ces homologations, elles décrivent de manière exhaustive le périmètre et la construction du moteur de scoring.
La “passation” du PoC aux équipes IT est critique car elle détermine la viabilité du projet. C’est pourquoi il est essentiel qu’un PoC ne dépende pas de simples scripts dont les résultats sont difficiles à reproduire. Une implémentation “production-ready” qui respecte les normes et qui inclut la gestion des versions, le logging, le monitoring et le tests unitaires et d’intégration, permet une passation plus aisée.
Réaliser … et communiquer
Tout au long des processus de la réalisation du PoC et de l'industrialisation, la communication est un élément non-négligeable pour la réussite du projet. La communication ne se limite pas uniquement aux échanges internes et aux parties prenantes du projets. La concrétisation du projet passe également par des initiatives d’acculturation des différents métiers de la banque aux enjeux de la datascience, en plus des sessions de vulgarisation afin de mieux préparer les clients finaux (conseillers clientèles, responsables marketing) à la compréhension et à l’utilisation des modèles.
La réussite du projet qu’accompagne Margo est le fruit de facteurs organisationnels (communication, agilité) mais aussi techniques. En effet, l’implication des différents acteurs du groupe est essentielle dans le cadrage, la mise en oeuvre et le suivi du projet. Le travail de vulgarisation est également important tant il permet de “gagner“ la confiance des collaborateurs, et d’améliorer l’expertise métier des datascientists. De plus, la double compétence développeur / datascientist est une force, elle aide à mieux appréhender l’enjeu de l'industrialisation du projet data en améliorant la compréhension avec les équipes IT.
La réussite du projet qu’accompagne Margo est le fruit de facteurs organisationnels (communication, agilité) mais aussi techniques. En effet, l’implication des différents acteurs du groupe est essentielle dans le cadrage, la mise en oeuvre et le suivi du projet. Le travail de vulgarisation est également important tant il permet de “gagner“ la confiance des collaborateurs, et d’améliorer l’expertise métier des datascientists. De plus, la double compétence développeur / datascientist est une force, elle aide à mieux appréhender l’enjeu de l'industrialisation du projet data en améliorant la compréhension avec les équipes IT.