Cognitive Search : quel rôle joue le Machine Learning


Rédigé par Laurent Fanichet, Sinequa le 29 Juin 2017

Selon le cabinet d'analystes indépendants Forrester, le Cognitive Search est la nouvelle génération de solutions d'Enterprise Search qui s'appuient sur l'intelligence artificielle.



Laurent Fanichet, VP Marketing chez Sinequa
La question du potentiel et de l'intérêt des technologies d'intelligence artificielle (IA) - comme le Machine Learning (ML) - pour les utilisateurs en entreprises est régulièrement soulevée par les experts du secteur. Dans le cadre de l'« Enterprise Search » et de « Knowledge Discovery » par exemple, les grandes entreprises challengées par leurs vastes silos de données, se penchent sur le sujet pour savoir à quel point ces technologies peuvent faciliter l'accès à information pertinente aux collaborateurs dans leur contexte de travail.

Comment adopter le Cognitive Search pour extraire des informations de plus en plus pertinentes et contextuelles de l'ensemble des données d'une entreprise ? Quel rôle joue le Machine Learning dans les plateformes de Cognitive Search et comment il s'intègre aux autres technologies de Data Analytics? Dans cet article nous allons voir des exemples concrets sur l'utilisation du Machine Learning au sein d'une plateforme de Cognitive Search.

Les algorithmes du Machine Learning œuvrent en deux phases : la phase d'apprentissage et la phase d'application du modèle. Lors de la phase d'apprentissage, les données sont analysées de façon répétée pour extraire un modèle à partir de données existantes. Pendant la phase d'application, le modèle extrait est appliqué aux données disponibles pour prédire des résultats.
Pour des résultats optimums, les algorithmes de ML doivent être appliqués dans un environnement informatique ultra-réactif et scalable.

Les algorithmes du Machine Learning sont très dépendants de la qualité des données auxquels ils sont associés, ce qui influe logiquement sur la qualité du résultat final. Les plateformes de Cognitive Search et d'Analytics s'appuient sur le Natural Language Processing (NLP) et d'autres capacités analytiques pour enrichir les données structurées et non structurées extraites de diverses sources (extraction d'entités nommées, détection des relations entre les données, etc.). Cette étape de "pré-traitement" des données (data pre-processing) permet aux algorithmes du Machine Learning de commencer l'analyse sur des données déjà enrichies ce qui permet de proposer des résultats pertinents plus rapidement. Ces résultats vont ensuite enrichir en permanence une base d'informations (Logical Data Warehouse) et ainsi répondre plus facilement et en temps réel aux requêtes des utilisateurs.

Voici 5 exemples d'algorithmes de Machine Learning transformant l'Enterprise Search en Cognitive Search :

La classification par l'exemple : il s'agit d'un algorithme dit "supervisé", c'est-à-dire qui nécessite un certain nombre de paramètres et d'informations fournies manuellement en amont. Concrètement, c'est un ensemble d'entraînements qui vont permettre de créer un modèle d'application pour d'autres données. Par exemple, un banquier qui souhaite savoir s'il peut proposer un prêt ou non à un ménage, peut s'appuyer sur un algorithme de classification en observant l'historique des prêts accordés aux ménages de la banque et si ces derniers ont effectivement remboursé leurs prêts. Nombre de personnes, revenus, âge, montant des prêts, etc. : autant de statistiques qui vont permettre, en synchronisant les dates de prêt, de déterminer la pertinence d'accorder d'un prêt à une date précise. Il y aura donc une phase d'apprentissage de l'algorithme, qui analysera les différentes données des ménages, puis l'algorithme sera appliqué à la situation du ménage en question pour déterminer s'il sera en mesure de rembourser le prêt effectivement.
Le clustering : cet algorithme peut regrouper des sous-ensembles de documents par similarité. Cela permet notamment d'effectuer des recherches sans devoir lancer une requête sur l'ensemble de la base d'informations (Logical Data Warehouse) de l'entreprise. L'idée est de limiter la recherche à un groupe spécifique de documents dans chaque "cluster". Contrairement à la classification, les groupes ne sont pas connus à l'avance, ce qui en fait une tâche non supervisée. Le regroupement est souvent utilisé pour l'analyse exploratoire. Par exemple, dans le marketing, le clustering peut être utilisé pour découvrir différents groupes dans la base de données client / prospect et utiliser ces résultats pour mettre en place des campagnes de marketing ciblées. Dans le cas de la recherche pharmaceutique, il est possible de regrouper des rapports de projets de R & D basés sur des médicaments, des maladies, des molécules et / ou des effets secondaires similaires cités dans ces rapports.

La régression : il s'agit d'un algorithme supervisé qui prédit des valeurs continues à partir de données en apprenant la relation entre les variables d'entrée et de sortie (celles que l'on cherche à prédire). Par exemple, dans le secteur de la finance de marché, un algorithme de régression permet de prédire les cours en fonction de l'influence de facteurs tels que la croissance économique ou la démographie.

La similarité : il ne s'agit pas d'algorithme de ML ici mais simplement d'un processus informatique dense qui aide à construire une matrice synthétisant l'interaction de chaque échantillon de données avec un autre. Il sert souvent de base aux algorithmes de Machine Learning et peut être utilisé pour identifier les similitudes entre les éléments d'un groupe donné. Par exemple, un département R & D peut s'appuyer sur des applications de similarité pour constituer des équipes mondiales d'experts pour un projet de recherche basé sur leurs compétences et leurs empreintes dans des rapports de recherche antérieurs et / ou des publications scientifiques.

La recommandation : dans le cadre du Cognitive Search, cet algorithme fusionne plusieurs algorithmes de base pour créer un moteur de recommandation proposant des contenus pouvant intéresser les utilisateurs. Les deux blocs d'algorithmes les plus populaires sont le « Content Based Recommendation (CBR) » et le « Collaborative Filtering (CF) ». Le CBR offre des recommandations personnalisées aux utilisateurs en faisant correspondre leur intérêt à la description et aux attributs des documents. Ce procédé est déjà connu du grand public grâce à Netflix ou Facebook, qui recommandent du contenu similaire en fonction des intérêts de leurs utilisateurs. Dans le cadre du Search en entreprise, cela peut être précieux pour analyser et trouver des documents complémentaires dans un secteur ou dans un contexte bien spécifique. Les algorithmes de Filtrage Collaboratif permettent de construire des correspondances entre les utilisateurs et des objets/contenus précis : il s'agit d'estimer l'intérêt d'un utilisateur pour un objet ou contenu spécifique en se basant sur le comportement d'utilisateurs similaires vis-à-vis de ce contenu. Cette méthode permet de proposer à l'utilisateur le contenu qui est le plus susceptible de l'intéresser. Le Filtrage Collaboratif est utilisé par les sites de e-commerce comme Amazon ou des plateformes de streaming de musique comme Spotify ou Deezer.

Le potentiel du Machine Learning pour le Cognitive Search continue de croître. Toutefois, il est important de souligner que la valeur ajoutée du Cognitive Search ne réside pas uniquement dans le Machine Learning mais plutôt dans la combinaison astucieuse de Machine Learning, Natural Language Processing (Traitement Automatique des Langues), d'analyses statistiques et de search : ces technologies s'enrichissent mutuellement pour délivrer les résultats les plus intelligents et les plus pertinents aux utilisateurs dans leur contexte de travail.



Dans la même rubrique :