Andreea Munteanu, MLOps Product Manager, Canonical
Je suis tentée de faire une analogie entre l’IA et la pâtisserie qui semblent deux univers éloignés et pourtant le lancement d'un projet d'IA réussi nécessite une réelle préparation, comme lorsque l’on s’apprête à faire de la pâtisserie. Il est important d'avoir tous les bons ingrédients, les bons outils à disposition et être prêt à suivre toutes les étapes nécessaires. Cela est d'autant plus vrai que les organisations définissent des attentes mesurables en matière d'IA.
Impossible de préparer un gâteau sans vérifier au préalable d’avoir tous les ingrédients à disposition. Il en est de même avant de lancer un projet d'IA, il faut s’assurer de disposer de deux ingrédients clés : un problème bien défini à résoudre et des données pour le résoudre. Une fois le problème précis identifié, il devient simple d’élaborer la solution appropriée.
Le premier ingrédient pour qu'un projet d'IA soit couronné de succès est de disposer de suffisamment de données pour entraîner les modèles d'IA. Il faut veiller à évaluer les données avec lesquelles ils sont entraînés. Dans de nombreux cas, les données sont désordonnées, ce qui les rend inaptes et cause divers problèmes. Les doublons, les valeurs manquantes et les entrées de données incohérentes figurent parmi les problèmes les plus fréquents. Les entreprises s'efforcent d'améliorer leurs processus de collecte et la qualité des données. Il existe encore des secteurs dans lesquels les données ne sont pas disponibles pour différentes raisons.
Le second ingrédient indispensable pour réussir un projet d’IA est de créer une équipe dédiée à ce projet. Pour certains, c'est plus facile à dire qu'à faire. De nombreux data scientists commencent leur carrière en tant qu'ingénieur ou statisticien et prennent l’habitude de travailler seuls en vase clos ce qui peut devenir un frein à long terme. Par exemple, une entreprise peut avoir des data scientists utilisant les mêmes ensembles de données mais pour des services différents sans jamais se concerter. Conjointement, ils pourraient accomplir de nombreuses tâches, ce qui serait bien plus pertinent et optimiserait la qualité des données. Les organisations qui prévoient de mettre en production des projets d'IA devront s'assurer que leurs équipes disposent des compétences adéquates.
Revenons à la pâtisserie : lorsque l’on s’apprête à faire une tarte aux poires ou une île flottante, le matériel utilisé va différer. Il en est de même pour la construction d’un projet d’IA, les outils peuvent être différents selon le besoin et le but recherché. L'IA s'est répandue grâce à l'évolution des grands modèles de langage (LLM), des modèles d'apprentissage automatique conçus pour comprendre le langage naturel. La popularité de ChatGPT a démontré que l'IA peut être accessible à tous avec des applications très variées. Dans un avenir proche, les LLM vont résoudre de nombreux problèmes dans différents secteurs et seront de plus en plus aisés à utiliser. Il faudra rester vigilant aux biais qui peuvent se créer et fausser l’apprentissage des LLM.
Lorsque la pâtisserie est prête à être enfournée, il est impensable de la laisser sans surveillance le temps de la cuisson. Il en est de même pour un projet d’IA lancé en production. Il faut surveiller et évaluer les performances, rassembler les bons outils et être alerté lorsqu'un modèle échoue ou que les données dérivent. La plupart des outils les plus utilisés pour l'observabilité sont disponibles en open source, comme Grafana et Prometheus. Les équipes peuvent utiliser ces outils pour surveiller et observer les piles d'apprentissage automatique, ainsi que les modèles qu'elles contiennent. Grâce aux outils d'observabilité, les équipes peuvent améliorer en permanence leurs modèles et rester conscientes des coûts. Ils montrent à l'équipe à quel moment du cycle de vie du LLM un problème est apparu, ce qui l'aide à remonter rapidement à la cause première et à trouver une solution.
Un pâtissier doit être attentif à respecter les étapes d’une recette, goûter sa préparation et faire les ajustements nécessaires si besoin. Il en est de mettre pour un projet IA : il ne suffit pas de surveiller et de maintenir un projet, il faut que les modèles d'apprentissage automatique aient un développement continu, et bénéficient des améliorations de performance provenant de nouveaux ensembles de données. Les modèles d'apprentissage automatique sont élaborés à partir de données et peuvent devenir obsolètes en raison des modifications apportées aux données. Ce phénomène est appelé dérive et fait référence aux propriétés qui modifient l'ensemble de données utilisé pour l'apprentissage du modèle. Il affecte généralement les performances du modèle et entraîne une baisse de sa capacité à faire des prédictions précises. Pour détecter les dérives, les développeurs peuvent utiliser une approche centrée sur le modèle, qui permet de détecter toute dérive des données d'entrée, ou des tests statistiques. Ces tests se répartissent en trois catégories : les méthodes d'analyse séquentielle, le modèle habituel de détection de la dérive et la méthode de distribution temporelle.
Un point qui reste clé : développer un modèle d’IA au bon endroit ! Les entreprises commencent souvent à expérimenter sur le cloud public, où il est relativement simple de démarrer. Cependant, lorsqu'elles sont prêtes à passer à la production ou à faire évoluer un projet, elles peuvent vouloir passer on-prem pour réduire les coûts. Mon conseil : optez pour une stratégie hybride qui offre une certaine flexibilité.
Et voici enfin le moment de déguster la pâtisserie voir si elle est aussi bonne que belle. Il en va de même pour un projet IA : il faut qu’il soit aussi pertinent qu’intéressant. Il faut aussi convaincre les personnes qui seront concernées de la valeur du projet à développer sachant que souvent elles n’ont pas les connaissances techniques qui leur permettent de juger objectivement. Pour simplifier les explications et rendre le projet plus lisible, la création d'un tableau de bord permet de valoriser et de mieux présenter un projet, de sorte que les parties prenantes comprennent rapidement le problème qui doit être résolu et les conséquences pour l’entreprise s’il n’est pas résolu.. Si elles sont convaincues, le projet sera une réussite, tout le monde avançant ensemble.
Impossible de préparer un gâteau sans vérifier au préalable d’avoir tous les ingrédients à disposition. Il en est de même avant de lancer un projet d'IA, il faut s’assurer de disposer de deux ingrédients clés : un problème bien défini à résoudre et des données pour le résoudre. Une fois le problème précis identifié, il devient simple d’élaborer la solution appropriée.
Le premier ingrédient pour qu'un projet d'IA soit couronné de succès est de disposer de suffisamment de données pour entraîner les modèles d'IA. Il faut veiller à évaluer les données avec lesquelles ils sont entraînés. Dans de nombreux cas, les données sont désordonnées, ce qui les rend inaptes et cause divers problèmes. Les doublons, les valeurs manquantes et les entrées de données incohérentes figurent parmi les problèmes les plus fréquents. Les entreprises s'efforcent d'améliorer leurs processus de collecte et la qualité des données. Il existe encore des secteurs dans lesquels les données ne sont pas disponibles pour différentes raisons.
Le second ingrédient indispensable pour réussir un projet d’IA est de créer une équipe dédiée à ce projet. Pour certains, c'est plus facile à dire qu'à faire. De nombreux data scientists commencent leur carrière en tant qu'ingénieur ou statisticien et prennent l’habitude de travailler seuls en vase clos ce qui peut devenir un frein à long terme. Par exemple, une entreprise peut avoir des data scientists utilisant les mêmes ensembles de données mais pour des services différents sans jamais se concerter. Conjointement, ils pourraient accomplir de nombreuses tâches, ce qui serait bien plus pertinent et optimiserait la qualité des données. Les organisations qui prévoient de mettre en production des projets d'IA devront s'assurer que leurs équipes disposent des compétences adéquates.
Revenons à la pâtisserie : lorsque l’on s’apprête à faire une tarte aux poires ou une île flottante, le matériel utilisé va différer. Il en est de même pour la construction d’un projet d’IA, les outils peuvent être différents selon le besoin et le but recherché. L'IA s'est répandue grâce à l'évolution des grands modèles de langage (LLM), des modèles d'apprentissage automatique conçus pour comprendre le langage naturel. La popularité de ChatGPT a démontré que l'IA peut être accessible à tous avec des applications très variées. Dans un avenir proche, les LLM vont résoudre de nombreux problèmes dans différents secteurs et seront de plus en plus aisés à utiliser. Il faudra rester vigilant aux biais qui peuvent se créer et fausser l’apprentissage des LLM.
Lorsque la pâtisserie est prête à être enfournée, il est impensable de la laisser sans surveillance le temps de la cuisson. Il en est de même pour un projet d’IA lancé en production. Il faut surveiller et évaluer les performances, rassembler les bons outils et être alerté lorsqu'un modèle échoue ou que les données dérivent. La plupart des outils les plus utilisés pour l'observabilité sont disponibles en open source, comme Grafana et Prometheus. Les équipes peuvent utiliser ces outils pour surveiller et observer les piles d'apprentissage automatique, ainsi que les modèles qu'elles contiennent. Grâce aux outils d'observabilité, les équipes peuvent améliorer en permanence leurs modèles et rester conscientes des coûts. Ils montrent à l'équipe à quel moment du cycle de vie du LLM un problème est apparu, ce qui l'aide à remonter rapidement à la cause première et à trouver une solution.
Un pâtissier doit être attentif à respecter les étapes d’une recette, goûter sa préparation et faire les ajustements nécessaires si besoin. Il en est de mettre pour un projet IA : il ne suffit pas de surveiller et de maintenir un projet, il faut que les modèles d'apprentissage automatique aient un développement continu, et bénéficient des améliorations de performance provenant de nouveaux ensembles de données. Les modèles d'apprentissage automatique sont élaborés à partir de données et peuvent devenir obsolètes en raison des modifications apportées aux données. Ce phénomène est appelé dérive et fait référence aux propriétés qui modifient l'ensemble de données utilisé pour l'apprentissage du modèle. Il affecte généralement les performances du modèle et entraîne une baisse de sa capacité à faire des prédictions précises. Pour détecter les dérives, les développeurs peuvent utiliser une approche centrée sur le modèle, qui permet de détecter toute dérive des données d'entrée, ou des tests statistiques. Ces tests se répartissent en trois catégories : les méthodes d'analyse séquentielle, le modèle habituel de détection de la dérive et la méthode de distribution temporelle.
Un point qui reste clé : développer un modèle d’IA au bon endroit ! Les entreprises commencent souvent à expérimenter sur le cloud public, où il est relativement simple de démarrer. Cependant, lorsqu'elles sont prêtes à passer à la production ou à faire évoluer un projet, elles peuvent vouloir passer on-prem pour réduire les coûts. Mon conseil : optez pour une stratégie hybride qui offre une certaine flexibilité.
Et voici enfin le moment de déguster la pâtisserie voir si elle est aussi bonne que belle. Il en va de même pour un projet IA : il faut qu’il soit aussi pertinent qu’intéressant. Il faut aussi convaincre les personnes qui seront concernées de la valeur du projet à développer sachant que souvent elles n’ont pas les connaissances techniques qui leur permettent de juger objectivement. Pour simplifier les explications et rendre le projet plus lisible, la création d'un tableau de bord permet de valoriser et de mieux présenter un projet, de sorte que les parties prenantes comprennent rapidement le problème qui doit être résolu et les conséquences pour l’entreprise s’il n’est pas résolu.. Si elles sont convaincues, le projet sera une réussite, tout le monde avançant ensemble.