Big Data & Traitement Automatique du Langage Naturel

Michel Bruley, Directeur Marketing International de Teradata Aster

Concrètement il s’agit : de systèmes de compréhension du langage naturel qui convertissent le langage humain en représentations qui sont plus faciles à manipuler pour les programmes informatiques, ou de systèmes de génération de langage naturel qui convertissent les informations de bases de données informatiques en langage lisible par l'homme. Le TALN concerne à la fois le texte et la parole, mais le travail sur le traitement de la parole a évolué dans un champ distinct.

Pourquoi le TALN, à quoi cela sert-il ? Les applications qui ont à traiter de grandes quantités de textes nécessitent une expertise en TALN. C’est expressément le cas lorsque l’on veut :
- classer des textes en catégories, indexer et mener des recherches dans de grands ensembles de textes (classer les documents par thèmes, langue, auteur, filtrer les spam, rechercher des informations pertinentes, déterminer les sentiments (positif, négatif),
- extraire des données de textes en convertissant des données non structurés en données structurées,
- extraire des informations, comme par exemple de lister les noms des personnes et des événements auxquels ils participent, à partir d'un document.
- automatiser la production de résumés (condenser 1 livre en 1 page, ...),
- trouver des réponses à des questions en langage naturel dans une collection de texte ou base de données,
- corriger l’orthographe, la grammaire,
- détecter des plagiats,
- traduire automatiquement,
- etc.

Pour les systèmes informatiques la tâche est rude. Quand les humains de 2013 voient un texte, ils le lisent et le comprennent (sous réserve de connaître le langage utilisé), quand les ordinateurs ‘voient’ un texte, ils ne perçoivent que des chaînes de caractères (ou des balises HTML). Le TALN est difficile, car la langue est souple, il y a constamment de nouveaux mots, de nouvelles significations, des significations différentes dans des contextes différents, la langue est subtile, la langue est complexe, il y a de nombreuses variables cachées (connaissances sur le monde, connaissances sur le contexte, connaissance des techniques de la communication humaine, problème d'échelle, …).

Dans ce domaine Teradata propose des solutions analytiques associant Aster et Attensity, elles permettent de traiter facilement de gros volumes de données textuelles, de les analyser et de leur donner du sens. Concrètement il s’agit de faciliter l’application des principes linguistiques pour extraire du contexte, des entités et des relations, de façon similaires à ce qu’un humain ferait ; faciliter la détection automatique et l’extraction d’entités telles que nom, lieu, … ; faciliter l’utilisation de règles de classification personnalisés pour classer les textes par leur contenu, trier par pertinence, et découvrir des informations. Il s’agit aussi de rapprocher ces données des historiques des transactions ou des contacts, et de comprendre en fonction de ce que les clients ont exprimés sur le web, ce qui ne va pas ou par quoi ils sont intéressés, de définir des communications, des offres appropriées, ou d’identifier des clients, des cibles à fort potentiel.

Pour aller plus loin sur ce sujet vous pouvez utilement consulter le lien ci-dessous :
http://www.teradata.com/partners/Attensity-Group/

Autres articles

Big Data & Traitement Automatique du Langage Naturel

Teradata lance des cas d’usage d’IA générative à démarrage rapide grâce à l’intégration d’Amazon Bedrock

Teradata nomme Louis Landry au poste de Chief Technology Officer

Teradata AI Unlimited pour Microsoft Fabric est désormais disponible en avant-première via Microsoft Fabric Workload Hub

Teradata facilite l’application concrète de l’IA générative et accélère la création de valeur pour les entreprises

Teradata propose des capacités d’IA exceptionnelles pour les grandes entreprises et les environnements hybrides en collaboration avec NVIDIA

L’intelligence artificielle : faisons vite mais faisons bien - 03/04/2025

À la découverte de la prochaine génération de disques durs - 31/03/2025

L'analyse prédictive : oracle de l’industrie financière - 31/03/2025

Management de Projet : Concilier Succès et Valeur - 24/03/2025

IA Act : vers une intelligence artificielle plus transparente et responsable - 24/03/2025