Didier Gaultier, Directeur du Développement SPAD et Datamining chez Coheris
Depuis la naissance de l’informatique, un principe né en 1963 à New York est en effet toujours resté particulièrement vrai de nos jours. Il stipule « Garbage in, Garbage out ». Un input de données aberrantes sera traité par un ordinateur, mais il n’en ressortira qu’un résultat absurde ou une absence de résultat. Un moteur statistique peut trier les données ineptes à la manière d’un tamis, mais si leur fiabilité est globalement trop compromise, il ne faut pas espérer de miracle. A partir de là, seul un contexte bien contrôlé autour d’un contenu libre, permet vraiment d’espérer en déduire de la connaissance utile.
L’Analytique face au « Big Data »
L’enjeu pour les entreprises face au « Big Data » ne se situe donc pas tant dans la capacité d’analyse elle-même qu’autour de 2 problématiques qui ont tendances à être trop souvent ignorées :
➢ Le mode de collecte des données doit rester connu et maitrisé pour être certain qu’une analyse de Data Mining ne produise pas d’effets contre-productifs pour l’entreprise.
➢ L’analyse de grandes quantités de données ne doit pas se faire au détriment de leur qualité. Toutes n’ont pas la même utilité et ne permettent pas à l’entreprise de dégager de la valeur.
Comme nous l’expliquons souvent à nos clients en Data Mining, que ce soit dans le cadre de l’utilisation d’un logiciel comme COHERIS SPAD, ou tout autre logiciel du marché, l’analyse statistique impose ainsi certaines règles de base sur les données, et ces règles ont très peu à voir avec la quantité de données. En ne les respectant pas, on s’expose au mieux à une absence de résultats, voire à des résultats faux et trompeurs. Une de ces règles d’or est ainsi de toujours utiliser le même instrument de collecte sur un jeu de données. Par exemple, une partie des données d’enquêtes venant d’un site internet ne peut donc pas être mélangé directement avec une autre partie (portant sur les mêmes questions) dont l’origine est une enquête téléphonique. Au risque sinon d’obtenir des données dont nous dirons par la suite pour simplifier qu’elles présentent une qualité dégradée.
Cette contrainte de base a souvent été oubliée, avec des conséquences qui ont pu être grave pour les entreprises. Il existe d’autres contraintes à respecter en Data Mining. Ainsi en 2008, pendant la crise des subprimes, une partie des ordres de bourse passés par certains automates programmés à la hâte était aberrante, car les modèles prévus par les organismes financiers initialement conçus et testés pour fonctionner dans un marché boursier fluide, ne prenaient pas en compte que la spécificité de la crise sur les actifs toxiques violait certaines hypothèses statistiques.
Des algorithmes qui marchaient parfaitement en période d’activité financière « normale », ont cessé d’être pertinents. Ce n’est bien sûr pas la raison première de la crise, mais c’est un des facteurs de son aggravation, il ne s’agit donc pas d’un sujet mineur.
➢ Le mode de collecte des données doit rester connu et maitrisé pour être certain qu’une analyse de Data Mining ne produise pas d’effets contre-productifs pour l’entreprise.
➢ L’analyse de grandes quantités de données ne doit pas se faire au détriment de leur qualité. Toutes n’ont pas la même utilité et ne permettent pas à l’entreprise de dégager de la valeur.
Comme nous l’expliquons souvent à nos clients en Data Mining, que ce soit dans le cadre de l’utilisation d’un logiciel comme COHERIS SPAD, ou tout autre logiciel du marché, l’analyse statistique impose ainsi certaines règles de base sur les données, et ces règles ont très peu à voir avec la quantité de données. En ne les respectant pas, on s’expose au mieux à une absence de résultats, voire à des résultats faux et trompeurs. Une de ces règles d’or est ainsi de toujours utiliser le même instrument de collecte sur un jeu de données. Par exemple, une partie des données d’enquêtes venant d’un site internet ne peut donc pas être mélangé directement avec une autre partie (portant sur les mêmes questions) dont l’origine est une enquête téléphonique. Au risque sinon d’obtenir des données dont nous dirons par la suite pour simplifier qu’elles présentent une qualité dégradée.
Cette contrainte de base a souvent été oubliée, avec des conséquences qui ont pu être grave pour les entreprises. Il existe d’autres contraintes à respecter en Data Mining. Ainsi en 2008, pendant la crise des subprimes, une partie des ordres de bourse passés par certains automates programmés à la hâte était aberrante, car les modèles prévus par les organismes financiers initialement conçus et testés pour fonctionner dans un marché boursier fluide, ne prenaient pas en compte que la spécificité de la crise sur les actifs toxiques violait certaines hypothèses statistiques.
Des algorithmes qui marchaient parfaitement en période d’activité financière « normale », ont cessé d’être pertinents. Ce n’est bien sûr pas la raison première de la crise, mais c’est un des facteurs de son aggravation, il ne s’agit donc pas d’un sujet mineur.
Analyser le « Big Data » : l’exemple des réseaux sociaux
Ainsi, pour analyser le « Big Data » en récupérant des données sur un réseau social, if faut impérativement être capable de comprendre le contexte de collecte pour arriver à un résultat exploitable. Par la suite, il sera possible de faire une analyse plus globale sur tous les résultats de ces analyses de premier niveau grâce à une méthodologie comme l’AFM (Analyse Factorielle Multiple) qui peut prendre en compte la disparité des sources et des contextes.
Mais pour cela, il faut bien avoir conscience que cette situation se présente. Or, certains entrepôts de données orientés « big data » n’ont pas nécessairement été conçus au départ par des statisticiens, et cet aspect particulier peut avoir été négligé dans leur conception. Par la suite, un tel entrepôt de données s’avèrera en partie inexploitable malgré la très grande masse de données qu’il peut contenir.
Il faut d’ailleurs noter qu’à l’heure actuelle, générer des leads pour une entreprise en utilisant seulement les réseaux sociaux, à part dans des contextes média très particuliers, fait partie du domaine de la prospective pure.
Les réseaux sociaux ont, par contre, un vrai rôle à jouer dans les relations publiques et pour l’image des entreprises. Le text-mining permet par exemple de classer les commentaires qui circulent sur Internet comme « bons » ou « mauvais », et de les associer à des types récurrents de remarques. Il est également possible de savoir si ces avis sont vraiment le fait de vrais consommateurs ou d’une campagne de billets ou une campagne de « like » organisée et en règle. Une entreprise qui surveille sa réputation de cette manière, peut par exemple identifier une campagne de dénigrement, car les outils de text-mining sont maintenant en mesure de recouper les commentaires pour identifier s’ils viennent tous d’une source similaire.
Mais pour cela, il faut bien avoir conscience que cette situation se présente. Or, certains entrepôts de données orientés « big data » n’ont pas nécessairement été conçus au départ par des statisticiens, et cet aspect particulier peut avoir été négligé dans leur conception. Par la suite, un tel entrepôt de données s’avèrera en partie inexploitable malgré la très grande masse de données qu’il peut contenir.
Il faut d’ailleurs noter qu’à l’heure actuelle, générer des leads pour une entreprise en utilisant seulement les réseaux sociaux, à part dans des contextes média très particuliers, fait partie du domaine de la prospective pure.
Les réseaux sociaux ont, par contre, un vrai rôle à jouer dans les relations publiques et pour l’image des entreprises. Le text-mining permet par exemple de classer les commentaires qui circulent sur Internet comme « bons » ou « mauvais », et de les associer à des types récurrents de remarques. Il est également possible de savoir si ces avis sont vraiment le fait de vrais consommateurs ou d’une campagne de billets ou une campagne de « like » organisée et en règle. Une entreprise qui surveille sa réputation de cette manière, peut par exemple identifier une campagne de dénigrement, car les outils de text-mining sont maintenant en mesure de recouper les commentaires pour identifier s’ils viennent tous d’une source similaire.
Trop d’informations tue l’information
Un autre aspect de bon sens à considérer est qu’une très grande quantité de données ne constitue pas une garantie d’une information de qualité, bien au contraire, on dit souvent que « trop d’informations tue l’information ».
C’est un principe qui, dans une certaine mesure, et contrairement aux idées reçues, reste vrai en Data Mining. Introduire une quantité astronomique de nouvelles données dans un modèle qui fonctionne n’introduit que très rarement de l’information réellement actionnable supplémentaire pour alimenter le modèle. Pire encore, certains modèles de Data Mining fonctionnent bien mieux, sont plus robustes et précis lorsque qu’on évite de les alimenter avec des données supplémentaires (trop pauvres en informations) en entrée. Avoir un modèle prédictif avec des dizaines voire des centaines de paramètres, est en soi une aberration, car on cherchera toujours à élaborer un modèle pour qu’il soit le plus performant possible d’une part, mais surtout fonctionnant avec le nombre minimum possible de variables d’autre part. Le fait d’introduire une grande quantité de sources supplémentaires en espérant qu’une d’entre elle fera « par chance » l’affaire, est à comparer à une pratique que les marketeurs appellent dans un autre domaine le « SPAM » avec un effet inverse à celui qu’on veut créer. Le principe de simplicité s’applique donc en Data Mining, car plus un modèle est simple, plus il est puissant.
L’autre raison pour laquelle on cherche principalement des modèles de Data Mining simples, réside dans leur pouvoir explicatif. Plus un modèle est simple, plus il permet de comprendre ce qu’il se passe. Simplicité est donc synonyme de puissance explicative. Devenu trop complexe, un modèle de Data Mining n’explique plus rien et devient difficile à mettre en œuvre.
Il ne faut donc jamais perdre de vue l’objectif du Data Mining qui est de créer de la connaissance client et de la valeur, qui n’est donc, loin s’en faut, pas garanti par l’accumulation d’une énorme masse de données dont on a même parfois oublié jusqu’à la provenance voire l’utilité.
C’est un principe qui, dans une certaine mesure, et contrairement aux idées reçues, reste vrai en Data Mining. Introduire une quantité astronomique de nouvelles données dans un modèle qui fonctionne n’introduit que très rarement de l’information réellement actionnable supplémentaire pour alimenter le modèle. Pire encore, certains modèles de Data Mining fonctionnent bien mieux, sont plus robustes et précis lorsque qu’on évite de les alimenter avec des données supplémentaires (trop pauvres en informations) en entrée. Avoir un modèle prédictif avec des dizaines voire des centaines de paramètres, est en soi une aberration, car on cherchera toujours à élaborer un modèle pour qu’il soit le plus performant possible d’une part, mais surtout fonctionnant avec le nombre minimum possible de variables d’autre part. Le fait d’introduire une grande quantité de sources supplémentaires en espérant qu’une d’entre elle fera « par chance » l’affaire, est à comparer à une pratique que les marketeurs appellent dans un autre domaine le « SPAM » avec un effet inverse à celui qu’on veut créer. Le principe de simplicité s’applique donc en Data Mining, car plus un modèle est simple, plus il est puissant.
L’autre raison pour laquelle on cherche principalement des modèles de Data Mining simples, réside dans leur pouvoir explicatif. Plus un modèle est simple, plus il permet de comprendre ce qu’il se passe. Simplicité est donc synonyme de puissance explicative. Devenu trop complexe, un modèle de Data Mining n’explique plus rien et devient difficile à mettre en œuvre.
Il ne faut donc jamais perdre de vue l’objectif du Data Mining qui est de créer de la connaissance client et de la valeur, qui n’est donc, loin s’en faut, pas garanti par l’accumulation d’une énorme masse de données dont on a même parfois oublié jusqu’à la provenance voire l’utilité.
Quel rôle pour le Data Mining en 2012 ?
Aujourd’hui, quand on parle d’analyser de l’audio et de la vidéo en grande quantité, en termes d’impact sur l’entreprise, on s’éloigne donc sans s’en rendre compte des raisons d’existence originelles des outils d’analyse. Il faut se poser la question : où est l’intérêt pour l’entreprise ?
Cet intérêt est évident pour un constructeur informatique qui cherche, à raison d’ailleurs, à promouvoir son matériel, notamment en capacité de stockage, capable de servir de support à des bases dépassant le Pétaoctet de données. Par contre, pour l’utilisateur ou le marketeur lambda, cette quantité monumentale ne garantit nullement un bon ROI, car dans un contexte « Big Data », les contraintes statistiques sur la qualité des données continuent en effet de s’appliquer pleinement.
C’est donc se réjouir trop vite que d’associer la masse de données récoltées à un volume de connaissance réellement actionnable par l’entreprise. Selon le principe du « Garbage in, Garbage out », il vaut mieux avoir moins de données mais qui seront parfaitement maitrisées et de bonne qualité.
L’essentiel de la connaissance utile pour le marketeur reste en effet issue des outils statistiques traditionnels. Cela fait maintenant plusieurs dizaines d’années que ces méthodes existent. Le progrès a eu lieu principalement sur la convivialité des outils, leur accessibilité et leur performance, ainsi que sur les garde-fous qui évitent à l’utilisateur de produire des résultats erronés.
Le fait d’ajouter des montagnes de données à ces process, ne rajoutera pas mécaniquement de la qualité en termes de valeur des données, bien au contraire, le risque est d’alourdir les temps d’analyse et d’en menacer la cohérence. Le Big Data n’est donc pas automatiquement une bonne nouvelle pour le dataminer ni pour le marketeur, mais plus une éventuelle difficulté à gérer, même si certains exemples précis, montrent que ce n’est pas non plus une fatalité.
En jouant parfois sur l’ignorance des gens, le risque du discours autour du Big Data est de renvoyer le Data Mining à un rôle qui n’est pas le sien : analyser toutes les données, quelles qu’elles soient et quelles que soient leurs origines. Ce serait un dévoiement, dans le sens où son rôle est avant tout de s’emparer de données collectées avec un objectif bien défini et d’en extraire de la connaissance précisément en rapport avec cet objectif. Cette intention initiale est fondamentale.
Enfin, le maillon faible de l’analyse de Data Mining reste le processus de collecte des données, qui en assure la qualité. Ce maillon est trop souvent négligé, alors que son impact sur une entreprise construite en silos peut être dévastateur. Si le service statistique qui analyse les données n’échange pas régulièrement avec celui qui les collecte (le plus souvent un département de la DSI), le risque est important d’utiliser des méthodes inappropriés de Data Mining et de sacrifier sans le savoir la qualité du résultat. Au-delà de l’enjeu technique se pose donc une question de culture à acquérir.
Au final, si une entreprise souhaite analyser le « Big Data », la prudence s’impose. Il lui faudra de préférence créer des groupes de travail entre statisticiens, DSI et intervenants métiers pour définir leurs besoins en termes de données. Ensuite, il faudra apporter une attention toute particulière aux processus de collecte et d’alimentation des entrepôts de données afin de mettre un terme au mythe qui veut qu’une énorme masse de données ce soit forcément mieux : ce n’est pas systématiquement le cas.
*Text-mining (ou Fouille de textes): technique qui automatise le traitement de grands volumes de contenus textuels, en extrait les informations principales et utilise la méthode statistique pour les répertorier.
Cet intérêt est évident pour un constructeur informatique qui cherche, à raison d’ailleurs, à promouvoir son matériel, notamment en capacité de stockage, capable de servir de support à des bases dépassant le Pétaoctet de données. Par contre, pour l’utilisateur ou le marketeur lambda, cette quantité monumentale ne garantit nullement un bon ROI, car dans un contexte « Big Data », les contraintes statistiques sur la qualité des données continuent en effet de s’appliquer pleinement.
C’est donc se réjouir trop vite que d’associer la masse de données récoltées à un volume de connaissance réellement actionnable par l’entreprise. Selon le principe du « Garbage in, Garbage out », il vaut mieux avoir moins de données mais qui seront parfaitement maitrisées et de bonne qualité.
L’essentiel de la connaissance utile pour le marketeur reste en effet issue des outils statistiques traditionnels. Cela fait maintenant plusieurs dizaines d’années que ces méthodes existent. Le progrès a eu lieu principalement sur la convivialité des outils, leur accessibilité et leur performance, ainsi que sur les garde-fous qui évitent à l’utilisateur de produire des résultats erronés.
Le fait d’ajouter des montagnes de données à ces process, ne rajoutera pas mécaniquement de la qualité en termes de valeur des données, bien au contraire, le risque est d’alourdir les temps d’analyse et d’en menacer la cohérence. Le Big Data n’est donc pas automatiquement une bonne nouvelle pour le dataminer ni pour le marketeur, mais plus une éventuelle difficulté à gérer, même si certains exemples précis, montrent que ce n’est pas non plus une fatalité.
En jouant parfois sur l’ignorance des gens, le risque du discours autour du Big Data est de renvoyer le Data Mining à un rôle qui n’est pas le sien : analyser toutes les données, quelles qu’elles soient et quelles que soient leurs origines. Ce serait un dévoiement, dans le sens où son rôle est avant tout de s’emparer de données collectées avec un objectif bien défini et d’en extraire de la connaissance précisément en rapport avec cet objectif. Cette intention initiale est fondamentale.
Enfin, le maillon faible de l’analyse de Data Mining reste le processus de collecte des données, qui en assure la qualité. Ce maillon est trop souvent négligé, alors que son impact sur une entreprise construite en silos peut être dévastateur. Si le service statistique qui analyse les données n’échange pas régulièrement avec celui qui les collecte (le plus souvent un département de la DSI), le risque est important d’utiliser des méthodes inappropriés de Data Mining et de sacrifier sans le savoir la qualité du résultat. Au-delà de l’enjeu technique se pose donc une question de culture à acquérir.
Au final, si une entreprise souhaite analyser le « Big Data », la prudence s’impose. Il lui faudra de préférence créer des groupes de travail entre statisticiens, DSI et intervenants métiers pour définir leurs besoins en termes de données. Ensuite, il faudra apporter une attention toute particulière aux processus de collecte et d’alimentation des entrepôts de données afin de mettre un terme au mythe qui veut qu’une énorme masse de données ce soit forcément mieux : ce n’est pas systématiquement le cas.
*Text-mining (ou Fouille de textes): technique qui automatise le traitement de grands volumes de contenus textuels, en extrait les informations principales et utilise la méthode statistique pour les répertorier.