Que ce soit pour résumer un texte, rédiger des mails, répondre à un client, organiser une stratégie marketing ou un plan de recrutement, les LLM sont de plus en plus présentes dans les entreprises.
Au cœur de cette fulgurante adoption ? Le LLM ou le modèle de langage à grande échelle dont l'objectif est de permettre à l'IA de comprendre et de générer du langage naturel en temps réel. En quelques secondes, un LLM comme ChatGPT est capable de générer un texte précis à partir d’une requête. Si ces outils sont, certes, bluffants, ils présentent néanmoins des travers. En effet, entraînés sur des données non exhaustives, non représentatives ou tronquées, ces IA génèrent des réponses biaisées, voire inventées, qui peuvent s’avérer catastrophiques pour l'entreprise utilisatrice.
Les entreprises se retrouvent donc dans l’obligation d’évaluer les LLM pour déterminer s'ils sont pertinents et répondent à leurs besoins spécifiques. Mais avec l'émergence constante de nouveaux modèles sur le marché - une tendance qui ne montre aucun signe de ralentissement - les entreprises sont face à un défi majeur : leur incapacité à tester chaque LLM faute de temps et de ressources humaines. D’où l’idée de s'appuyer sur des benchmarks fiables et intuitifs pour faire le bon choix. Mais que sait-on de la façon dont ces benchmarks fonctionnent ? Comment mesurent-ils les réponses ? Quels critères utilisent-ils ? Comment attribuent-ils des notations ? En d’autres termes, ces benchmarks, censés refléter la réalité des géants de l'IA, sont-ils vraiment fiables ?
Les modèles d’évaluations des IA révèlent encore des lacunes
Une analyse fine des benchmarks révèle, hélas, des manquements. En effet, ils tendent à privilégier certaines compétences au détriment d'autres, offrant alors une vision tronquée des capacités réelles des LLM. S’il est simple d’évaluer la pertinence d’une réponse à choix multiple, mesurer celle d’une question nécessitant de rédiger une phrase est bien plus délicat. Comment l’évaluer ? Quels critères prendre en compte ?
Par ailleurs, pour évaluer la pertinence d’une réponse, les benchmarks se rabattent souvent sur des modèles probabilistes. Mais, là aussi des lacunes apparaissent. Certains modèles défectueux ont tendance à ne pas voir une relation de cause à effet entre deux données, alors qu’il y en a une, assignant alors une valeur 0.
Autre exemple : le résumé. Dans le cadre d’une évaluation automatique d’un résumé, celle-ci porte souvent sur le recoupement de mots, de couple ou triple mots entre le texte et le résumé. Or, une bonne synthèse n’est pas celle qui a le plus grand nombre de mots communs avec le texte original mais celle qui synthétise le mieux la pensée du texte. Un résumé fait par un humain recueille donc souvent un mauvais score, là où celui généré par une IA cartonne, grâce aux recoupements de mots.
Solution plus fiable, mais plus coûteuse : le contrôle humain
Tous ces exemples révèlent une chose : les métriques utilisées dans les benchmarks actuels manquent souvent de pertinence et de fiabilité. Aujourd'hui, le moyen le plus sûr d'évaluer une IA pour une entreprise reste donc l'observation par des humains des données produites.
Pour résoudre la problématique du contrôle de l’IA par les humains que seules des entreprises financièrement très solides comme Open AI ou Anthropic IA peuvent s'offrir, de nouvelles techniques d’évaluation émergent sur le marché comme la simulation d’un humain contrôlant les données de sortie de l'algorithme.
Autre technique : la RLHF (Reinforcement Learning from human feedback) une approche d’apprentissage par renforcement consistant à utiliser les commentaires et notations des humains pour évaluer les modèles et les guider dans leur apprentissage.
Aujourd'hui de nombreux acteurs du secteur ressentent le besoin d'une refonte des méthodologies d'évaluation. Les benchmarks actuels, en dépit de leurs meilleures intentions, peuvent parfois induire en erreur les entreprises et les utilisateurs finaux, les conduisant à faire des choix basés sur des informations incomplètes ou biaisées. C’est pourquoi, il est temps de repenser la manière dont sont évalués les LLM. C’est ainsi que chercheurs, industriels et institutions doivent se réunir pour élaborer des benchmarks plus robustes, transparents et représentatifs de la réalité des capacités des LLM. Seule une telle démarche collaborative garantira que les avancées de cette industrie bénéficient réellement à la société dans son ensemble.
Alors que nous continuons à naviguer dans l'ère passionnante des LLM, il est impératif de disposer d'outils d'évaluation à la hauteur de ces innovations. Pour façonner l'avenir de l'IA, il est urgent de comprendre où nous en sommes aujourd'hui et de jouer la transparence et l'excellence dans les modèles d’évaluation.
Au cœur de cette fulgurante adoption ? Le LLM ou le modèle de langage à grande échelle dont l'objectif est de permettre à l'IA de comprendre et de générer du langage naturel en temps réel. En quelques secondes, un LLM comme ChatGPT est capable de générer un texte précis à partir d’une requête. Si ces outils sont, certes, bluffants, ils présentent néanmoins des travers. En effet, entraînés sur des données non exhaustives, non représentatives ou tronquées, ces IA génèrent des réponses biaisées, voire inventées, qui peuvent s’avérer catastrophiques pour l'entreprise utilisatrice.
Les entreprises se retrouvent donc dans l’obligation d’évaluer les LLM pour déterminer s'ils sont pertinents et répondent à leurs besoins spécifiques. Mais avec l'émergence constante de nouveaux modèles sur le marché - une tendance qui ne montre aucun signe de ralentissement - les entreprises sont face à un défi majeur : leur incapacité à tester chaque LLM faute de temps et de ressources humaines. D’où l’idée de s'appuyer sur des benchmarks fiables et intuitifs pour faire le bon choix. Mais que sait-on de la façon dont ces benchmarks fonctionnent ? Comment mesurent-ils les réponses ? Quels critères utilisent-ils ? Comment attribuent-ils des notations ? En d’autres termes, ces benchmarks, censés refléter la réalité des géants de l'IA, sont-ils vraiment fiables ?
Les modèles d’évaluations des IA révèlent encore des lacunes
Une analyse fine des benchmarks révèle, hélas, des manquements. En effet, ils tendent à privilégier certaines compétences au détriment d'autres, offrant alors une vision tronquée des capacités réelles des LLM. S’il est simple d’évaluer la pertinence d’une réponse à choix multiple, mesurer celle d’une question nécessitant de rédiger une phrase est bien plus délicat. Comment l’évaluer ? Quels critères prendre en compte ?
Par ailleurs, pour évaluer la pertinence d’une réponse, les benchmarks se rabattent souvent sur des modèles probabilistes. Mais, là aussi des lacunes apparaissent. Certains modèles défectueux ont tendance à ne pas voir une relation de cause à effet entre deux données, alors qu’il y en a une, assignant alors une valeur 0.
Autre exemple : le résumé. Dans le cadre d’une évaluation automatique d’un résumé, celle-ci porte souvent sur le recoupement de mots, de couple ou triple mots entre le texte et le résumé. Or, une bonne synthèse n’est pas celle qui a le plus grand nombre de mots communs avec le texte original mais celle qui synthétise le mieux la pensée du texte. Un résumé fait par un humain recueille donc souvent un mauvais score, là où celui généré par une IA cartonne, grâce aux recoupements de mots.
Solution plus fiable, mais plus coûteuse : le contrôle humain
Tous ces exemples révèlent une chose : les métriques utilisées dans les benchmarks actuels manquent souvent de pertinence et de fiabilité. Aujourd'hui, le moyen le plus sûr d'évaluer une IA pour une entreprise reste donc l'observation par des humains des données produites.
Pour résoudre la problématique du contrôle de l’IA par les humains que seules des entreprises financièrement très solides comme Open AI ou Anthropic IA peuvent s'offrir, de nouvelles techniques d’évaluation émergent sur le marché comme la simulation d’un humain contrôlant les données de sortie de l'algorithme.
Autre technique : la RLHF (Reinforcement Learning from human feedback) une approche d’apprentissage par renforcement consistant à utiliser les commentaires et notations des humains pour évaluer les modèles et les guider dans leur apprentissage.
Aujourd'hui de nombreux acteurs du secteur ressentent le besoin d'une refonte des méthodologies d'évaluation. Les benchmarks actuels, en dépit de leurs meilleures intentions, peuvent parfois induire en erreur les entreprises et les utilisateurs finaux, les conduisant à faire des choix basés sur des informations incomplètes ou biaisées. C’est pourquoi, il est temps de repenser la manière dont sont évalués les LLM. C’est ainsi que chercheurs, industriels et institutions doivent se réunir pour élaborer des benchmarks plus robustes, transparents et représentatifs de la réalité des capacités des LLM. Seule une telle démarche collaborative garantira que les avancées de cette industrie bénéficient réellement à la société dans son ensemble.
Alors que nous continuons à naviguer dans l'ère passionnante des LLM, il est impératif de disposer d'outils d'évaluation à la hauteur de ces innovations. Pour façonner l'avenir de l'IA, il est urgent de comprendre où nous en sommes aujourd'hui et de jouer la transparence et l'excellence dans les modèles d’évaluation.