L’évolution des plateformes de données
Il y a cinq ans, Databricks a lancé le concept de Lakehouse qui stocke et gouverne toutes vos données dans des formats ouverts et qui prennent en charge de manière native des workloads allant de la BI à l'IA. Pour la première fois, les datacenters offraient un système unifié pour interroger toutes les sources de données d'une organisation et administrer tous les workloads qui utilisent la data. Le Lakehouse est maintenant largement adopté par les entreprises et incorporé dans les stacks de la plupart des fournisseurs.
L'idée centrale derrière les Data Intelligence Platforms
Les Data Intelligence Platforms révolutionnent aujourd’hui la gestion des données en utilisant des modèles d'IA pour comprendre en profondeur la sémantique des données de l'entreprise ; c'est ce que nous appelons la Data Intelligence. Elles s'appuient sur l’architecture Lakehouse - un système unifié pour interroger et gérer toutes les données de l'entreprise - mais analysent automatiquement les données (contenu et métadonnées) et la façon dont elles sont utilisées (requêtes, rapports, lignage, etc.) pour ajouter de nouvelles capacités.
Data Intelligence Platforms
Databricks en tant que Data Intelligence Platform
Les équipes Databricks ont alors construit une Data Intelligence Platform au-dessus du data Lakehouse, et ont été de plus en plus enthousiasmées par les possibilités de l'IA dans les plateformes de données, au fur et à mesure qu’elles ont ajouté des fonctionnalités individuelles. Databricks s’appuie sur les capacités uniques de son Lakehouse en tant que seule plateforme de données de l'industrie avec une couche de gouvernance unifiée pour les données et l'IA et un moteur de requête unique qui couvre l'ETL, le SQL, le machine learning et la BI. En outre, Databricks a tiré parti de son acquisition de MosaicML pour générer des modèles d'IA dans une couche d'intelligence des données appelée DatabricksIQ, qui alimente toutes les parties de la plateforme.
DatabricksIQ imprègne déjà de nombreuses couches du stack actuel, pour :
● Optimisation des réglages dans l'ensemble de la plateforme, y compris l'indexation automatique des colonnes, la disposition des partitions et le renforcement des fondations du Lakehouse. Cela permet de réduire le coût total de possession et d'améliorer les performances.
● Améliorer la gouvernance dans Unity Catalog (UC) en insérant automatiquement des descriptions et des étiquettes pour tous les produits data dans UC. Celles-ci sont ensuite exploitées pour sensibiliser l'ensemble de la plateforme au jargon, aux acronymes, aux métriques et à la sémantique. Cela permet d'améliorer la recherche sémantique, la qualité de l'assistant d'IA et la capacité de gouvernance.
● Améliorer la génération de Python et de SQL dans l’assistant d'intelligence artificielle, en permettant la conversion de texte en SQL et de texte en Python.
● Rendre les requêtes beaucoup plus rapides en incorporant des prédictions sur les données dans la planification des requêtes dans le moteur de requêtes Photon.
● Fournir une mise à l'échelle automatique optimale et minimiser les coûts en fonction des prédictions sur la charge de travail, à l'intérieur des Delta Live Tables et des Serverless Jobs.
Databricks intègre DatabricksIQ directement à sa plateforme d'IA, Mosaic AI, pour permettre aux entreprises de créer facilement des applications d'IA qui comprennent leurs données. Mosaic AI offre désormais de multiples fonctionnalités pour intégrer directement les données de l'entreprise dans les systèmes d'IA, notamment :
● RAG (Retrieval Augmented Generation) end-to-end pour construire des agents conversationnels de haute qualité sur vos données personnalisées, en tirant parti de la base de données vectorielle de Databricks pour la « mémoire ».
● Formation de modèles personnalisés, soit à partir de zéro sur les données d'une organisation, soit par un pré-entraînement continu de modèles existants tels que MPT et Llama 2, afin d'améliorer les applications d'IA avec une compréhension approfondie d'un domaine cible.
● Inférence efficace et sécurisée sans serveur sur vos données d'entreprise, et connectée à la fonctionnalité de gouvernance et de contrôle de la qualité d'Unity Catalog.
● MLOps end-to-end basé sur le populaire projet open source MLflow, avec toutes les données produites automatiquement actionnables, suivies et contrôlables dans le Lakehouse.
Historiquement, les plateformes de données ont été difficiles d'accès pour les utilisateurs finaux et difficiles à gérer et à gouverner pour les équipes data. Les Data Intelligence Platform vont transformer ce paysage en s'attaquant directement à ces deux défis - en rendant les données beaucoup plus faciles à interroger, à gérer et à gouverner. En outre, leur compréhension approfondie des données et de leur utilisation servira de base aux applications d'IA d'entreprise qui exploitent ces données. Alors que l'IA remodèle le monde du logiciel, Databricks estime que les leaders de chaque secteur seront ceux qui tireront parti des données et de l'IA pour dynamiser leurs organisations. Les plateformes DI seront la pierre angulaire de ces organisations, leur permettant de créer la prochaine génération d'applications de données et d'IA avec qualité, rapidité et agilité.
Il y a cinq ans, Databricks a lancé le concept de Lakehouse qui stocke et gouverne toutes vos données dans des formats ouverts et qui prennent en charge de manière native des workloads allant de la BI à l'IA. Pour la première fois, les datacenters offraient un système unifié pour interroger toutes les sources de données d'une organisation et administrer tous les workloads qui utilisent la data. Le Lakehouse est maintenant largement adopté par les entreprises et incorporé dans les stacks de la plupart des fournisseurs.
L'idée centrale derrière les Data Intelligence Platforms
Les Data Intelligence Platforms révolutionnent aujourd’hui la gestion des données en utilisant des modèles d'IA pour comprendre en profondeur la sémantique des données de l'entreprise ; c'est ce que nous appelons la Data Intelligence. Elles s'appuient sur l’architecture Lakehouse - un système unifié pour interroger et gérer toutes les données de l'entreprise - mais analysent automatiquement les données (contenu et métadonnées) et la façon dont elles sont utilisées (requêtes, rapports, lignage, etc.) pour ajouter de nouvelles capacités.
Data Intelligence Platforms
Databricks en tant que Data Intelligence Platform
Les équipes Databricks ont alors construit une Data Intelligence Platform au-dessus du data Lakehouse, et ont été de plus en plus enthousiasmées par les possibilités de l'IA dans les plateformes de données, au fur et à mesure qu’elles ont ajouté des fonctionnalités individuelles. Databricks s’appuie sur les capacités uniques de son Lakehouse en tant que seule plateforme de données de l'industrie avec une couche de gouvernance unifiée pour les données et l'IA et un moteur de requête unique qui couvre l'ETL, le SQL, le machine learning et la BI. En outre, Databricks a tiré parti de son acquisition de MosaicML pour générer des modèles d'IA dans une couche d'intelligence des données appelée DatabricksIQ, qui alimente toutes les parties de la plateforme.
DatabricksIQ imprègne déjà de nombreuses couches du stack actuel, pour :
● Optimisation des réglages dans l'ensemble de la plateforme, y compris l'indexation automatique des colonnes, la disposition des partitions et le renforcement des fondations du Lakehouse. Cela permet de réduire le coût total de possession et d'améliorer les performances.
● Améliorer la gouvernance dans Unity Catalog (UC) en insérant automatiquement des descriptions et des étiquettes pour tous les produits data dans UC. Celles-ci sont ensuite exploitées pour sensibiliser l'ensemble de la plateforme au jargon, aux acronymes, aux métriques et à la sémantique. Cela permet d'améliorer la recherche sémantique, la qualité de l'assistant d'IA et la capacité de gouvernance.
● Améliorer la génération de Python et de SQL dans l’assistant d'intelligence artificielle, en permettant la conversion de texte en SQL et de texte en Python.
● Rendre les requêtes beaucoup plus rapides en incorporant des prédictions sur les données dans la planification des requêtes dans le moteur de requêtes Photon.
● Fournir une mise à l'échelle automatique optimale et minimiser les coûts en fonction des prédictions sur la charge de travail, à l'intérieur des Delta Live Tables et des Serverless Jobs.
Databricks intègre DatabricksIQ directement à sa plateforme d'IA, Mosaic AI, pour permettre aux entreprises de créer facilement des applications d'IA qui comprennent leurs données. Mosaic AI offre désormais de multiples fonctionnalités pour intégrer directement les données de l'entreprise dans les systèmes d'IA, notamment :
● RAG (Retrieval Augmented Generation) end-to-end pour construire des agents conversationnels de haute qualité sur vos données personnalisées, en tirant parti de la base de données vectorielle de Databricks pour la « mémoire ».
● Formation de modèles personnalisés, soit à partir de zéro sur les données d'une organisation, soit par un pré-entraînement continu de modèles existants tels que MPT et Llama 2, afin d'améliorer les applications d'IA avec une compréhension approfondie d'un domaine cible.
● Inférence efficace et sécurisée sans serveur sur vos données d'entreprise, et connectée à la fonctionnalité de gouvernance et de contrôle de la qualité d'Unity Catalog.
● MLOps end-to-end basé sur le populaire projet open source MLflow, avec toutes les données produites automatiquement actionnables, suivies et contrôlables dans le Lakehouse.
Historiquement, les plateformes de données ont été difficiles d'accès pour les utilisateurs finaux et difficiles à gérer et à gouverner pour les équipes data. Les Data Intelligence Platform vont transformer ce paysage en s'attaquant directement à ces deux défis - en rendant les données beaucoup plus faciles à interroger, à gérer et à gouverner. En outre, leur compréhension approfondie des données et de leur utilisation servira de base aux applications d'IA d'entreprise qui exploitent ces données. Alors que l'IA remodèle le monde du logiciel, Databricks estime que les leaders de chaque secteur seront ceux qui tireront parti des données et de l'IA pour dynamiser leurs organisations. Les plateformes DI seront la pierre angulaire de ces organisations, leur permettant de créer la prochaine génération d'applications de données et d'IA avec qualité, rapidité et agilité.
Autres articles
-
Qlik améliore l’intégration avec SAP, Databricks et Snowflake et favorise la création de valeur grâce à l’IA
-
Databricks lève 10 milliards de dollars dans une levée de fonds en Série J, avec une valorisation de 62 milliards de dollars
-
Databricks renforce son partenariat avec AWS pour offrir des capacités avancées d'IA générative
-
Databricks renforce son partenariat avec AWS pour offrir des fonctionnalités avancées d'IA générative
-
Databricks Apps : Le moyen le plus rapide et le plus sûr de créer des applications de données et d'IA