Exploration et compréhension des données à l'ère de la GenAI
Les données sont au cœur de tout système basé sur l’IA Générative - qu'il s'agisse de préparer des ensembles de données pour l'entraînement des modèles, d'évaluer les résultats des modèles ou de filtrer les données RAG (Retrieval-Augmented Generation). L'exploration et la compréhension de ces ensembles de données sont essentielles pour construire des applications GenAI de qualité. Cependant, l'analyse de données textuelles non structurées peut devenir très lourde et extrêmement difficile. Historiquement, ce processus a été entaché par des méthodes manuelles chronophage.. Non seulement ces méthodes traditionnelles prennent du temps, mais elles sont également si décourageantes qu'elles en dissuadent plus d'un.
Présentation de Lilac
Lilac, par essence, facilite l'exploration des données non structurées : c'est un outil plébiscité par les data scientist et les chercheurs en intelligence artificielle pour l’exploration, la compréhension et la modification d’ensembles de données textuelles.
Lilac a innové dans ce domaine en offrant une solution évolutive qui encourage et facilite l'intégration des données. Grâce à une interface utilisateur très intuitive et à des fonctionnalités renforcées par l'IA, Lilac permet aux data scientists et aux chercheurs d'explorer des groupes de données, de dériver de nouvelles catégories de données à l'aide de commentaires et de classificateurs, et d'adapter les ensembles de données sur la base de ces informations. L'équipe à l'origine de Lilac a spécifiquement conçu son produit pour permettre l'analyse des résultats des modèles afin d'en déceler les biais ou la toxicité, et la préparation des données pour le RAG et le pré-entraînement des LLM.
La mission principale de Lilac s'aligne sur l'engagement de Databricks à fournir aux utilisateurs des solutions d’IA Générative de bout en bout. Leur projet open source a déjà captivé un large public au sein des communautés de recherche en science des données et en IA - y compris notre propre équipe Mosaic AI, qui a tiré parti de Lilac pour conserver des données au cours de l'année écoulée. Les fondateurs de Lilac, Daniel Smilkov et Nikhil Thorat, ont tous deux passé une décennie chez Google à affiner leur expertise dans le développement de solutions de qualité des données à l'échelle de l'entreprise. Leur expérience, leurs équipes et leur technologie sont des apports considérables pour Databricks.
Perspectives d'avenir : Lilas et Databricks
Databricks Mosaic AI, peut fournir aux utilisateurs des outils clé en main pour développer des applications GenAI de haute qualité en utilisant leurs propres données. La technologie de Lilac facilitera l'évaluation et le suivi des résultats de leurs LLM dans une plateforme unifiée, ainsi que la préparation des ensembles de données pour le RAG, le fine-tuning et le pré-entraînement. Nous sommes impatients de découvrir de nouvelles synergies au fur et à mesure de l'intégration de la technologie de Lilac dans Databricks. Restez à l'écoute !
Les données sont au cœur de tout système basé sur l’IA Générative - qu'il s'agisse de préparer des ensembles de données pour l'entraînement des modèles, d'évaluer les résultats des modèles ou de filtrer les données RAG (Retrieval-Augmented Generation). L'exploration et la compréhension de ces ensembles de données sont essentielles pour construire des applications GenAI de qualité. Cependant, l'analyse de données textuelles non structurées peut devenir très lourde et extrêmement difficile. Historiquement, ce processus a été entaché par des méthodes manuelles chronophage.. Non seulement ces méthodes traditionnelles prennent du temps, mais elles sont également si décourageantes qu'elles en dissuadent plus d'un.
Présentation de Lilac
Lilac, par essence, facilite l'exploration des données non structurées : c'est un outil plébiscité par les data scientist et les chercheurs en intelligence artificielle pour l’exploration, la compréhension et la modification d’ensembles de données textuelles.
Lilac a innové dans ce domaine en offrant une solution évolutive qui encourage et facilite l'intégration des données. Grâce à une interface utilisateur très intuitive et à des fonctionnalités renforcées par l'IA, Lilac permet aux data scientists et aux chercheurs d'explorer des groupes de données, de dériver de nouvelles catégories de données à l'aide de commentaires et de classificateurs, et d'adapter les ensembles de données sur la base de ces informations. L'équipe à l'origine de Lilac a spécifiquement conçu son produit pour permettre l'analyse des résultats des modèles afin d'en déceler les biais ou la toxicité, et la préparation des données pour le RAG et le pré-entraînement des LLM.
La mission principale de Lilac s'aligne sur l'engagement de Databricks à fournir aux utilisateurs des solutions d’IA Générative de bout en bout. Leur projet open source a déjà captivé un large public au sein des communautés de recherche en science des données et en IA - y compris notre propre équipe Mosaic AI, qui a tiré parti de Lilac pour conserver des données au cours de l'année écoulée. Les fondateurs de Lilac, Daniel Smilkov et Nikhil Thorat, ont tous deux passé une décennie chez Google à affiner leur expertise dans le développement de solutions de qualité des données à l'échelle de l'entreprise. Leur expérience, leurs équipes et leur technologie sont des apports considérables pour Databricks.
Perspectives d'avenir : Lilas et Databricks
Databricks Mosaic AI, peut fournir aux utilisateurs des outils clé en main pour développer des applications GenAI de haute qualité en utilisant leurs propres données. La technologie de Lilac facilitera l'évaluation et le suivi des résultats de leurs LLM dans une plateforme unifiée, ainsi que la préparation des ensembles de données pour le RAG, le fine-tuning et le pré-entraînement. Nous sommes impatients de découvrir de nouvelles synergies au fur et à mesure de l'intégration de la technologie de Lilac dans Databricks. Restez à l'écoute !
Autres articles
-
Qlik améliore l’intégration avec SAP, Databricks et Snowflake et favorise la création de valeur grâce à l’IA
-
Databricks lève 10 milliards de dollars dans une levée de fonds en Série J, avec une valorisation de 62 milliards de dollars
-
Databricks renforce son partenariat avec AWS pour offrir des capacités avancées d'IA générative
-
Databricks renforce son partenariat avec AWS pour offrir des fonctionnalités avancées d'IA générative
-
Databricks Apps : Le moyen le plus rapide et le plus sûr de créer des applications de données et d'IA