Analyse prédictive : l’apport du « Data Scanning »


Rédigé par Hélène IVANOFF le 23 Janvier 2008

Après quelques années d’euphorie technologique, l’analyse prédictive s’est recentrée sur les données. Le data scanning, ou exploration poussée des données, devient une des composantes majeures de l’amélioration des modèles prédictifs.



L’utilisation de modèles prédictifs des comportements clients a largement diffusé au cours de la dernière décennie. Nul n’est en effet plus censé ignorer les bénéfices qu’une bonne prévision des comportements clients peut apporter à la réussite des opérations de marketing. Les exemples d’application sont nombreux : dans le domaine du fundraising pour proposer aux donateurs de basculer en prélèvement automatique, dans la banque pour maximiser la souscription à de nouveaux produits, dans le secteur IT pour cibler les clients les plus susceptibles de mettre à jour leur parc de licences, en VAD pour prévenir l’attrition, ou encore dans le secteur automobile pour anticiper le renouvellement du véhicule …
Cependant, après quelques années d’euphorie technologique, il est apparu que la performance des modèles prédictifs était plus liée aux données exploitées qu’ à la sophistication des techniques de modélisation. Les entreprises se sont donc repliées sur des approches plus classiques et plus simples mais aussi plus robustes, et se sont focalisées sur l’alimentation des outils.
Une alimentation efficace repose sur deux étapes clés : la collecte et la qualité des données source d’une part, et la transformation de ces données à des fins statistiques d’autre part.
Le système d’information de l’entreprise, conçu pour conserver un historique complet des relations avec le client (NPAI, premier contact, historique d’achats, nature des achats, contrats détenus, retours, appels entrants, SAV…), fait depuis quelques années l’objet d’une attention particulière en matière de qualité de données, en particulier sur les aspects liés à la correction des erreurs, la standardisation des contenus et la consolidation des sources. En témoigne l’essor des solutions de Data Quality Management.
La seconde étape transforme les données stockées dans le système d’information en données utilisables par les outils de datamining.
Les dataminers et statisticiens savent que c’est une étape longue et exigeante, qui nécessite de convertir des historiques d’achats en agrégats ou événements puis d’analyser l’ensemble de ces critères. Pratiquement ce sont, pour chaque analyse, des milliers de critères à calculer, tester, analyser, comparer. Un véritable « Data Scanning », qui devrait, pour être complet, inclure des traitements systématiques aussi divers que le filtrage de données aberrantes, la discrétisation optimale de chaque variable, le regroupement pertinent des modalités, l’analyse des points d’accumulation, des transformations mathématiques, des combinaisons de critères….
Prenons l’exemple d’un ciblage pour une association caritative. Une première analyse de l’historique des dons fait ressortir le critère « récence de don» : les donateurs ayant donné récemment sont plus réceptifs au prochain mailing d’appel à don. Mais une analyse plus fine mettra en évidence un pic de réceptivité dans l’intervalle 9 - 11 mois, associé à une réceptivité bien plus faible pour les donateurs les plus récents. Les donateurs annuels sont ainsi identifiés. Un data scanning plus sommaire aurait conduit à solliciter en priorité les donateurs les plus récents, impactant négativement les résultats du mailing.
Cet exemple simple illustre l’importance d’une exploration poussée des données. C’est cependant, compte tenu de la combinatoire élevée, une étape particulièrement chronophage, qui ne peut donc être traitée que partiellement par le dataminer.
COMPLEX SYSTEMS a conçu la solution de datamining DataLab ® qui exploite un moteur unique de data scanning entièrement automatisé. Avec DataLab, l’analyse prédictive gagne en productivité et en performance.
Pour en savoir plus : http://www.complex-systems.fr/datalab.shtml



Dans la même rubrique :