La compétition internationale du CIAC (Computational Intelligence Algorithm Competition), co-organisée par la société NeuroTech S.A., portait cette année, pour la première fois, sur le data mining appliqué au risque de crédit. Les participants étaient invités à modéliser l'effet de la dégradation temporelle des performances et l'effet saisonnier des défauts de paiement. Sous le pseudonyme “Team Sandvika”, Knut Opdal et Rikard Bohm de StatSoft Norway, ont proposé une solution démontrant la supériorité des méthodes modernes de data mining face à la traditionnelle régression logistique.
Leur modèle STATISTICA est arrivé en tête du classement concernant l'estimation des défauts de paiement sur les dossiers de crédit acceptés par les organismes prêteurs, et en seconde position concernant la robustesse du modèle par rapport à la dégradation des performances sur un jeu de données pluri-annuel.
“Nous avons saisi l'opportunité que constituait cette compétition pour comparer les performances de différentes classes de modèles prédictifs,” ont déclaré Opdal et Bohm. “Nous souhaitions notamment confronter l'approche classique [ndlr. "la régression logistique"] aux méthodes de boosting d'arbres, de forêts aléatoires, de MARSplines et de réseaux de neurones.”
Capture d'écran issue de la synthèse de la CIAC par Opdal/Bohm sur le risque de crédit
Ouverte à tous les participants issus du monde de l'entreprise ou de la recherche, cette compétition comprenait deux volets. La première tâche, relative à la dégradation des performances, a été évaluée classiquement en fonction de la zone située sous la courbe ROC (Receiving Operator Characteristic). Pour la seconde tâche, il s'agissait d'ajuster le défaut de paiement estimé des dossiers de crédit ayant été approuvés par le modèle défini lors de la première étape. Les organisateurs de la compétition ont indiqué que cette seconde tâche représentait une innovation réaliste dans les compétitions internationales de data mining en soulignant la pertinence de la qualité de l'estimation des défauts de paiement futurs par rapport au plus faible défaut de paiement futur moyen couramment utilisé.
Grâce à ses excellents résultats sur ces deux aspects, StatSoft Norway a été invité à présenter sa solution gagnante lors d'une session spéciale du CIAC organisée en Septembre lors d'un Congrès de trois jours du BRICS-CCI & CBIC. Opdal a présenté, via Skype, un “Comparatif entre Différentes Classes de Modèles utilisés pour le Risque de Crédit,” dans lequel il décrit la méthodologie et les techniques appliquées par lui et Bohm.
Dans leurs conclusions, Opdal et Bohm révèlent que lorsque le volume de données et/ou de variables augmente, la performance des modèles de scoring reposant sur des techniques modernes de data mining (par exemple, Boosting d'Arbres de Décision, MARSplines, Réseaux de Neurones) est “significativement plus élevée qu'avec les modèles de scoring traditionnels”.
Les résultats de la compétition sont accessibles ici.
Voir également la présentation de la solution gagnante STATISTICA par Knut Opdal :
http://youtu.be/flYDl0-1g6s
Leur modèle STATISTICA est arrivé en tête du classement concernant l'estimation des défauts de paiement sur les dossiers de crédit acceptés par les organismes prêteurs, et en seconde position concernant la robustesse du modèle par rapport à la dégradation des performances sur un jeu de données pluri-annuel.
“Nous avons saisi l'opportunité que constituait cette compétition pour comparer les performances de différentes classes de modèles prédictifs,” ont déclaré Opdal et Bohm. “Nous souhaitions notamment confronter l'approche classique [ndlr. "la régression logistique"] aux méthodes de boosting d'arbres, de forêts aléatoires, de MARSplines et de réseaux de neurones.”
Capture d'écran issue de la synthèse de la CIAC par Opdal/Bohm sur le risque de crédit
Ouverte à tous les participants issus du monde de l'entreprise ou de la recherche, cette compétition comprenait deux volets. La première tâche, relative à la dégradation des performances, a été évaluée classiquement en fonction de la zone située sous la courbe ROC (Receiving Operator Characteristic). Pour la seconde tâche, il s'agissait d'ajuster le défaut de paiement estimé des dossiers de crédit ayant été approuvés par le modèle défini lors de la première étape. Les organisateurs de la compétition ont indiqué que cette seconde tâche représentait une innovation réaliste dans les compétitions internationales de data mining en soulignant la pertinence de la qualité de l'estimation des défauts de paiement futurs par rapport au plus faible défaut de paiement futur moyen couramment utilisé.
Grâce à ses excellents résultats sur ces deux aspects, StatSoft Norway a été invité à présenter sa solution gagnante lors d'une session spéciale du CIAC organisée en Septembre lors d'un Congrès de trois jours du BRICS-CCI & CBIC. Opdal a présenté, via Skype, un “Comparatif entre Différentes Classes de Modèles utilisés pour le Risque de Crédit,” dans lequel il décrit la méthodologie et les techniques appliquées par lui et Bohm.
Dans leurs conclusions, Opdal et Bohm révèlent que lorsque le volume de données et/ou de variables augmente, la performance des modèles de scoring reposant sur des techniques modernes de data mining (par exemple, Boosting d'Arbres de Décision, MARSplines, Réseaux de Neurones) est “significativement plus élevée qu'avec les modèles de scoring traditionnels”.
Les résultats de la compétition sont accessibles ici.
Voir également la présentation de la solution gagnante STATISTICA par Knut Opdal :
http://youtu.be/flYDl0-1g6s
Autres articles
-
Dell Software, Quest Software, Statistica, et TIBCO : bienvenue au Monopoly
-
TIBCO Software acquiert Statistica, leader des plates-formes de data science
-
Gartner positionne Dell parmi les Leaders du Magic Quadrant consacré aux plateformes analytiques avancées
-
Les données structurées demeurent la priorité des entreprises alors que la gestion de l’information est en pleine mutation
-
Entretien avec Shawn Rogers, un analyste qui commence une nouvelle vie chez Dell