Big Data : de l’analyse des opinions et des sentiments


Rédigé par le 4 Juin 2012

Les analyses de textes mettent en lumières deux types principaux d’information, des faits et des opinions. La plupart des méthodes actuelles de traitement des informations textuelles ont pour objectifs d’extraire et d’exploiter des informations factuelles, c’est le cas par exemple des recherches que nous faisons sur le web. L'analyse des opinions s’intéresse quant à elle aux sentiments et émotions exprimés dans les textes, elle se développe beaucoup aujourd’hui du fait de la place prise par le web dans notre société, et du très grand volume d’opinions exprimées quotidiennement par les consommateurs grâce à l’avènement du web 2.0.



Michel Bruley, Directeur Marketing EMEA de Teradata Aster
En quoi consiste l'analyse des opinions ? Il s’agit d’identifier l'orientation d’une opinion exprimée dans un morceau de texte (blog, forum, commentaire, site web, document sur un site de partage, etc.). Autrement dit, il s’agit de déterminer si une phrase ou un document exprime un sentiment positif, négatif ou neutre, concernant un objet défini. Par exemple dire : « Le film était fabuleux », est l’expression d’une opinion, alors que dire « l’acteur principal du film est Jean Dujardin », est la formulation d’une donnée factuelle. L’analyse des opinions peut se faire à différents niveaux. Au niveau du mot : le film est distrayant et motivant ; au niveau de la phrase : la police (sujet) traque (verbe) la contrebande (objet) ; ou enfin au niveau du document, c'est-à-dire d’un ensemble de phrases : ses premiers films étaient très bons, mais celui-là ne vaut rien.
En fait une opinion peut être caractérisée par une formule de cinq composants, le quintuple : Oj, Fjk, Hi, Tj, SOijkl ; où Oj est un objet cible ; Fjk une caractéristique de l’objet cible ; Hi un porteur d’opinion ; Tl le moment où l’opinion est exprimée et SOjkl est l’orientation de l’opinion, du porteur d’opinion Hi, au sujet de la caractéristique Fjk de l’objet Oj au moment Tl. En utilisant cette formule on peut ainsi structurer un ensemble documents, de données web non structurées, en mettant en lumière tous les quintuples compris dans les textes. Les quintuples sont des données structurées qui peuvent être analysées qualitativement ou quantitativement, et être représentées visuellement avec les moyens classiques des systèmes décisionnels. Toutes sortes d'analyses sont possibles. L’analyse des opinions ne consiste pas uniquement à caractériser l’opinion d’une personne exprimée par des mots et des phrases, mais aussi par exemple à comparer les avis de différentes personnes ou groupes.

La première opération de l’analyse des opinions contenues dans un texte consiste à supprimer les phrases qui ne contiennent que des faits, pour ne retenir que celles qui expriment des opinions et en définir la polarité (positive, négative ou neutre). Concrètement vous avez des adjectifs qui indiquent des faits (rouge, métallique), ou des sentiments positifs (honnête, important, mature, grand, patient), ou négatifs (nocif, hypocrite, inefficace) ou subjectifs sans être ni positifs, ni négatifs (curieux, étrange, bizarre, sans doute, probable). Il en est de même pour les verbes, positifs (louanger, aimer), négatifs (blâmer, critiquer), subjectifs (prédire) ou les noms positifs (le plaisir, la jouissance), négatifs (la douleur, la critique) et subjectifs (la prédiction, l’impression).

Attention, définir le sens d’une suite de mots ou d’une phrase peut parfois être compliqué. Un homme grand ne doit pas être confondu avec un grand homme, et la ponctuation qui a une grande importance, peut jouer des tours : Le cyclope dit, "Ulysse est idiot", n’a pas le même sens que "Le cyclope, dit Ulysse, est idiot". Il faut aussi tenir compte que des mots ou des phrases peuvent signifier des choses différentes en fonction des contextes et des domaines, ou de la subtilité de l'expression des sentiments lorsque quelqu’un fait de l’ironie par exemple.

Au final cependant, l’analyse des opinions et des sentiments est à même d’apporter beaucoup d’informations sur les populations étudiées, et les responsables marketing avertis savent déjà en tirer partis. C’est le cas de nombreux clients de Teradata Aster, comme Barnes & Noble, LinkedIn, eBay par exemple. Pour aller plus loin sur ce sujet vous pouvez utilement consulter le site suivant : http://www.asterdata.com/solutions/data-science.php



Dans la même rubrique :