Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Datamining et marketing : l'illusion du Titanic


Rédigé par Hélène IVANOFF, Complex Systems le 29 Juin 2015

Nombre de démonstrations de datamining portent sur la prévision de survie des passagers du Titanic. En réalité elles ne montrent que la petite partie émergée de l'iceberg.



Hélène IVANOFF, co-fondatrice de Complex Systems
Hélène IVANOFF, co-fondatrice de Complex Systems
Le datamining recouvre l'analyse de tous types de données avec des méthodes sophistiquées pour comprendre et prévoir des comportements, chose que les approches traditionnelles de BI, requêtes, tableaux de bord, reporting, n’ont aucune chance de découvrir.
Peut-être à cause de la fascination qu'il exerce, le naufrage du Titanic sert souvent de support aux démonstrations datamining. Le fichier des passagers comporte l'age, le sexe, la classe...et le "résultat" (statistiquement parlant), c'est à dire survivant ou non. On découvre rapidement qu'il valait mieux être en 1ère classe, une femme, ou un enfant , sauf un enfant en 3ème classe pour survivre à l'accident du 15 avril 1912.

Avec de telles démonstrations, simples et même souvent lumineuses, les utilisateurs métier pourraient facilement penser que finalement le datamining et l'analyse prédictive ça n'est pas si compliqué

Les propositions suivantes semblent en effet s'enchaîner logiquement :
1/ Les données du Titanic permettent de faire facilement du datamining
2/ J'ai des données (sur mes clients)
3/ Donc, je peux faire (facilement) du datamining (sur mes données clients)

Exemple type d'un raisonnement, d'apparence logique, sans aucun doute séducteur, mais totalement faux.

En effet :
Le fichier du Titanic est une vue "à plat" des passagers à un instant donné : les caractéristiques des passagers (âge, classe) décrivent leur état à l'embarquement. Dans les bases de données clients réelles en revanche, les informations ne sont pas disponibles à plat, mais proviennent de plusieurs tables ; ces informations brutes doivent être retraitées et transformées pour obtenir cette vue à plat. Par exemple, l'âge est calculé à partir de la date de naissance dans la table clients, la fréquence de visites sur un site à partir des dates et heures d'une table de visites, le CA à partir des lignes d'une table commandes etc. Sans compter qu'il faudra combiner des informations provenant de plusieurs tables, par exemple, le ratio du nombre de commandes et du nombre de visites sur le site. La difficulté pour un utilisateur qui n'est pas dataminer est donc dans un premier temps de transformer les données brutes des différentes tables de la base en informations porteuses de sens. Cette étape est loin d'être simple, elle nécessite de nombreuses manipulations de données, complexifiées par le fait que, selon les analyses (exploratoire, descriptives, prédictive), les calculs devront être effectués à des dates différentes : exemple, pour comprendre pourquoi un abonné à une newsletter se transforme en client il faut caractériser son profil avant son premier achat et non à la date d'aujourd'hui. Sachant que la date de premier achat est potentiellement différente pour chaque client.
Bien entendu, il faudra encore tenir compte des "trous" (les valeurs manquantes dans les données) et des "aberrations " (les dates de naissance à 01/01/1900, les montants d'achat anormalement élevés...). Le parcours est semé d'écueils.
Il est traditionnellement admis que tous ces traitements représentent globalement 80% du temps d'une analyse. C'est donc 80% de la réalité du datamining qui sont occultés lors des démonstrations sur des datasets prêts à l'emploi, comme celle du Titanic. Coïncidence, 80% c'est aussi à peu près la proportion du volume caché des icebergs.

Mais ce n'est pas tout. Cent ans et quelques après le Titanic, nous sommes plongés dans l'océan des big data. Et les vraies questions sont aujourd'hui "comment penser à toutes les informations à prendre en compte dans l'analyse? Comment être sûr de ne pas oublier un élément qui pourrait se révéler capital pour la prévision d'un comportement ?" Si on a peu de chance de passer à côté lorsque dispose de quelques données comme celle qui décrivent les passagers du Titanic (environ 2200 passagers et 10 champs de données) c'est loin d'être aussi évident, aujourd'hui.
Avec l'apparition de sources de données nombreuses et variées, telles que réseaux sociaux, transactions, comportements de visite, réactivité aux différents types de sollicitation, modes d'utilisation des canaux, il est illusoire de croire que la seule logique métier puisse suffire pour identifier toutes les dimensions d'une analyse. L'analyste, qu'il soit expert dataminer ou expert métier, est donc confronté à un double problème de temps, à la fois pour imaginer toutes les métriques dont il a besoin, et pour les construire.

On en arrive au paradoxe que plus on dispose de données, moins on les analyse (faute de temps). Même appréciée en valeur relative, l'idée est dérangeante. Et ce aussi bien pour les dataminers, dont on comprend aisément les frustrations, que pour les acteurs du marketing, qui investissent de plus en plus dans des stratégies data driven, reposant sur la connaissance client.

A COMPLEX SYSTEMS, nous brassons des données depuis près de 20 ans, et menons une R&D active pour repousser les limites de la connaissance client. Avec la solution KNOWLBOX(R), nous avons inventé une technologie d'exploration automatisée des données client, analysant directement les bases de données client, qui supprime tout besoin de dataset (le fichier plat), qui crée et évalue automatiquement des milliers de critères discriminants. Pour en terminer avec la métaphore, nous avons fait disparaitre la partie immergée de l'iceberg.
Ça change tout, pour les dataminers comme pour les utilisateurs métiers.




Commentaires

1.Posté par Jeremy le 30/06/2015 12:10
Oui, les projets data nécessitent de la préparation et de la génération de features pour pouvoir modéliser ! Il faut effectivement l'affirmer et le répéter partout. Il n'y a pas de magie.
C'est d'ailleurs ce qu'aide à faire Dataiku avec leur logiciel Data Science Studio.

Pour le projet du Titanic, il a été popularisé par la plateforme Kaggle.com qui organise des concours pour les data scientists avec des jeux de données parfois énormes (Facebook, Amazon, AXA organisent des concours dessus avec leurs données). L’exercice du Titanic est juste là pour s'initier, pour débuter :)

2.Posté par Vallaud le 02/07/2015 19:57
J'aurai aimé surtout prédire l'iceberg !!! Cela aurait été du data mining/machine learning utile....
Evidement toutes les plateformes proposent un module de préparation des données plus ou moins intuitif
Les gratuites off line : Orange http://orange.biolab.si/ avec une interface objet mais en arrière du full pyhton et toutes les librairies pyhton disponibles
Une alternative à Dataiku très bien et full on line : Azure Machine Learning un atelier complet de data mining sur n'importe quel browseur n'importe ou pour presque 49€ par mois. Limiter en nombre de modèles pour l'instant mais MS vient de racheter Révolution il y a 4 mois.
Enfin le "gros outil" Modeler d'IBM (ou SAS EM) avec un des ETL de préparation des données le plus puissant du marché, une solution d'AED (Analyse Exploratoire des Données) hyper visuelle et des algos de folie et la aussi la possibilité d'y intégrer des biliothèques R et Pyhton ou de produire les modèles en sortie dans ces deux languages.
Moi j'aime bien Complexe Système car c'est une société qui suit un cap de démocratisation du data mining depuis des années et en cela c'est une solution remarquable car elle a de la suite dans les idées sans trop surfer sur les modes du moment mais en y restant toujours "proche"

3.Posté par Hélène Ivanoff le 06/07/2015 10:41
Merci Thierry de votre sympathique commentaire :-)

Dans KNOWLBOX il n'y a pas de module de préparation des données au sens traditionnel du terme. Avec son moteur de Data Scanning, KNOWLBOX génère automatiquement des milliers de critères discriminants. Du coup c'est la machine qui découvre toute seule des comportements clients auxquels on n'aurait pas pensé. Du machine learning, tout simplement ...

4.Posté par Hélène Ivanoff le 06/07/2015 10:44
Merci Jérémy pour votre remarque. Le Titanic n’est évidemment qu’un exemple, et on retrouve très souvent des démos qui partent de datasets tout prêts à l’emploi.
Ce que nous avons fait avec KNOWBOX c’est précisément s’affranchir de cette étape lourde de préparation. Grâce au moteur de Data Scanning, KNOWLBOX génère automatiquement des milliers de critères discriminants. En un sens c’est assez magique. Mais n'est-ce pas ce qu’on demande au machine Learning ?

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store