Du Tweet à l’achat: comment les nouvelles approches de l’analyse de texte transforment les mots en valeur


Rédigé par Jean-Michel Schneider, FICO France le 15 Janvier 2015

L’analyse de données est la force motrice derrière les décisions d'affaires. Mais savoir extraire les données à partir de sources de plus en plus diverses de l’entreprise n’est pas facile, d'autant plus que la plupart des données ne se prêtent pas facilement aux approches algorithmiques traditionnels.



Jean-Michel Schneider, Directeur de FICO France
En effet, quand on parle de données – et notamment de Big Data - on pense que tout est facilement gérable. En fait, près de 80% du Big Data dans le monde est constitué de données non structurées, ce qui signifie qu'elles ne correspondent pas parfaitement aux critères de colonnes et de lignes qui alimentent la plupart des modèles analytiques. De nouvelles sources de texte, tels que les blogs, les flux de commentaires, des sessions de chat avec les représentants de service clients, le flux Twitter et autres messages provenant des médias sociaux sont en plein essor, mais les langues humaines sont riches de synonymes et d’expressions idiomatiques qui ne conviennent pas aux modèles analytiques simples des données plus traditionnelles.
Les techniques dites d'analyse de texte (ou Text Analytics) peuvent combler ce vide. Elles aident à tirer de la valeur des données non structurées en transformant de l'information textuelle complexe et désordonnée en connaissances sur le comportement clients, et peuvent contribuer à affiner les modèles prédictifs.
Ce concept n’est pas nouveau, mais l'analyse de texte a pris de l’ampleur ces dernier temps, pour atteindre un niveau de maturité qui favorise l'adoption généralisée. Le rapport « Hype Cycle for Big Data » de Gartner en Juillet 2014 voit l'analyse de texte comme un contributeur majeur pour les entreprises et prévoit l'adoption généralisée dans les deux à cinq prochaines années. Une valeur supplémentaire de l'analyse de texte peut se trouver dans le fait de combiner avec d'autres techniques pour exploiter les données structurées et non structurées.

De nouvelles techniques à l’origine d’enseignements éclairés
Il existe une variété de techniques d'analyse de texte, et la meilleure dépendra du projet en question. Certains peuvent avoir un objectif clair comme « Puis-je prévoir un résultat futur avec fiabilité? ». D'autres peuvent tout simplement vouloir tirer des enseignements à partir d'une masse de données « Qu'est-ce que je pourrais apprendre en analysant les données historiques ? ». Dans les cas où un objectif spécifique est en place - par exemple, identifier des cas de fraude de carte de crédit ou comprendre la rentabilité d'un certain groupe de clients - l’analyse de texte est nécessaire pour déterminer les mots clés (mots ou phrases) qui généreront les meilleurs enseignements.

Détecter le comportement des clients pour ajuster sa stratégie client
La technique Latent Dirichlet Allocation (LDA) aide la segmentation et la détection des changements de comportements client. Celle-ci peut trouver des similitudes dans les données qui permettent la classification et le regroupement. LDA utilise des algorithmes statistiques pour extraire des thèmes, des concepts et autres types de sens à partir de données non structurées. Elle ne comprend pas la syntaxe ni aucun autre aspect du langage humain, mais cherche tout simplement des répétitions. Cela signifie qu'elle fonctionne tout aussi bien, quelle que soit la langue du texte écrit, ou même si ce dernier se compose uniquement de symboles plutôt que de caractères.
Par exemple, cette technique pourrait être utilisée pour examiner un blog avec 100 000 postes, afin de déterminer le thème dominant du blog. Il pourrait sortir les quatre ou cinq premiers thèmes ou «archétypes» de contenu, et distinguer les billets sur l’ambiance sociale de l’entreprise à partir de discussions entre salariés.
Cette technique très flexible est souvent utilisée en marketing pour générer des archétypes pour les clients qui présentent toujours le même comportement en faisant des dépôts, retraits et achats. Elle peut également être utilisée pour classer les différents types d'appels aux centres d'appels, identifiant les motifs valables pour lesquelles les clients appellent, et à l'aide de ces enseignements mieux prédire le risque d'attrition, mieux prévoir les volumes d'appels, ou même affiner les caractéristiques et les structures de produits.
Un autre avantage des analyses à base de LDA est que les dernières informations client peuvent être appliquées et mises à jour facilement et rapidement. Cela signifie que nous pouvons déterminer si les derniers comportements d'un client sont compatibles avec son comportement historique. Si quelque chose d'inhabituel se passe avec le client, ou qu’il réalise une action incompatible avec son profil existant, cela permet de déclencher une alerte.
Par exemple, l'analyse des notes d'un collecteur au cours de plusieurs interactions sur une facture en souffrance pourrait détecter si le client est de plus en plus frustré ou en colère, ou n’est plus en mesure de rembourser la dette. Il se pourrait qu’un nouveau facteur entre dans l'équation, tel qu’un membre de la famille malade, ce qui peut signifier que la stratégie de recouvrement doit être ajustée. Ce type d'analyse pourrait même signaler un changement d'intention, repérer le moment où un client qui envisageait à l'origine de payer se donne consciemment ou inconsciemment la permission de ne pas le faire.

Détecter le ton pour détecter le sens
Aller encore plus loin pour détecter des enseignements qui vont au-delà de ce que les clients disent et comment ils se comportent, pour comprendre ce qu'ils peuvent penser et même sentir, est un domaine de l'analyse de texte généralement appelé analyse de sentiments. Les techniques analytiques appliquées ici sont généralement basées sur le traitement du langage naturel (NLP), mais ils peuvent également venir des statistiques, ou même être un hybride des deux.
Par exemple, la phrase « c’est super » est-elle toujours positive ? Et celle qui dit : «Vous avez été très utile, » est-elle un véritable constat et méritant, ou une réplique cynique ? Nous sommes des êtres humains complexes et souvent nous ne disons pas exactement ce que nous entendons. Nous sommes par nature ambigüe, obscure et sarcastique. Tout ce qui rend la compréhension du sens à partir des mots seuls un défi sensible.
Au fur et à mesure que l’e-mail, le chat et les sms (plutôt que le téléphone ou les conversations en face-à-face) continuent de gagner du terrain parmi les clients comme méthodes de communication, nous perdons un grand nombre d’indices importants sur le sens qui venait auparavant de la tonalité de la voix et de l’emphase. Le coté pointu de l'analyse des sentiments cherche à capter ces subtilités par d'autres moyens automatisés.
Comme la quantité de données de texte relatives aux clients ne cesse de croître, les entreprises doivent intégrer une gamme de techniques d'analyse de texte dans leurs stratégies Big Data. Dans ces données se trouve une immense valeur inexploitée et un avantage concurrentiel à conquérir, mais grâce aux solutions en développement, le jour où l’on pourra pleinement l’exploiter s’approche de plus en plus.



Dans la même rubrique :