Databricks, la société spécialisée dans les données et l'IA, annonce aujourd'hui qu'elle a conclu un accord pour acquérir Tabular, une société de gestion de données fondée par Ryan Blue, Daniel Weeks et Jason Reid. En réunissant les créateurs originaux d'Apache Iceberg™ et de Linux Foundation Delta Lake, les deux principaux formats de lakehouse open source, Databricks ouvrira la voie à la compatibilité des données afin que les organisations ne soient plus limitées par le choix de l'un ou l'autre de ces formats pour leurs données. Databricks a l'intention de travailler en étroite collaboration avec les communautés Delta Lake et Iceberg pour apporter la compatibilité de format au Lakehouse ; à court terme, à l'intérieur de Delta Lake UniForm et, à long terme, en évoluant vers un standard d'interopérabilité unique, ouvert et commun. Databricks et Tabular travailleront ensemble à la réalisation d'une vision commune d’open lakehouse.
L'essor de l'architecture des pavillons et l'incompatibilité des formats
Databricks a lancé l'architecture Lakehouse en 2020 pour permettre l'intégration des charges de travail de stockage de données traditionnelles avec les workloads en IA à partir d'une seule copie gouvernée de données. Pour que cela fonctionne, toutes les données doivent être dans un format ouvert afin que différents workloads, applications et machines puissent accéder aux mêmes données. L'architecture Lakehouse maximise la productivité de l'entreprise en démocratisant l'accès aux données. En outre, les données doivent souvent être copiées et exportées pour être utilisées par d'autres applications, ce qui crée un degré élevé de dépendance à l'égard du fournisseur. Quatre ans plus tard, 74 % des entreprises ont déployé une architecture de type "lakehouse".
Les formats de données open source qui permettent d'effectuer des transactions conformes ACID sur des données stockées dans un système de stockage d'objets constituent la base de cette architecture. Ces formats améliorent considérablement la fiabilité et les performances des opérations sur les données dans le data lake et ont été spécifiquement conçus pour les moteurs open source tels qu'Apache Spark™, Trino et Presto. Pour relever ces défis, Databricks a collaboré avec la Fondation Linux pour créer le projet Delta Lake. Depuis sa création, Delta Lake compte plus de 500 contributeurs de code issus d'un ensemble diversifié d'organisations, et plus de 10 000 entreprises dans le monde utilisent Delta Lake pour traiter plus de 4 exaoctets de données en moyenne chaque jour.
À peu près au même moment où Delta Lake a été créé, Ryan Blue et Daniel Weeks ont développé le projet Iceberg chez Netflix et en ont fait don à la Apache Software Foundation. Depuis lors, Delta Lake et Iceberg se sont imposés comme les deux principaux standards open source pour les formats lakehouse. Bien que ces deux formats soient basés sur Apache Parquet et partagent des objectifs et des conceptions similaires, ils sont devenus incompatibles en raison de leur développement indépendant.
Au fil du temps, un certain nombre d'autres moteurs open source et propriétaires ont adopté ces formats. Cependant, ils n'ont généralement adopté qu'une seule des normes et, le plus souvent, une partie seulement de cette norme, ce qui a entraîné la fragmentation et le cloisonnement des données de l'entreprise, sabotant ainsi la valeur de l'architecture Lakehouse.
La voie de l'interopérabilité
Les entreprises ont besoin de l'interopérabilité des données pour réaliser les avantages du Lakehouse, et Databricks travaillera en étroite collaboration avec les communautés Delta Lake et Iceberg pour apporter l'interopérabilité aux formats au fil du temps. Il s'agit d'un long chemin, qui prendra probablement plusieurs années à parcourir dans ces communautés. C'est pourquoi, l'année dernière, Databricks a introduit Delta Lake UniForm. Les tables UniForm assurent l'interopérabilité entre Delta Lake, Iceberg et Hudi, et prennent en charge l'interface de catalogue restful d'Iceberg afin que les entreprises puissent utiliser les machines et les outils d'analyse qui leur sont déjà familiers, pour toutes leurs données. Largement disponible aujourd’hui, UniForm permet aux entreprises de devenir compatibles. Avec l'arrivée de l'équipe originale d'Iceberg, Databricks élargira considérablement les ambitions de Delta Lake UniForm.
"Databricks a été le pionnier du lakehouse et au cours des quatre dernières années, le monde a adopté l'architecture lakehouse, combinant le meilleur des data warehouses et des data lakes pour aider les clients à réduire le coût total de possession, à adopter l'ouverture et à réaliser plus rapidement des projets d'intelligence artificielle. Malheureusement, le paradigme lakehouse a été divisé entre les deux formats les plus populaires : Delta Lake et Iceberg. Databricks et Tabular travailleront avec la communauté open-source pour rapprocher les deux formats au fil du temps, en augmentant l'ouverture et en réduisant les silos et les frictions pour les clients", a déclaré Ali Ghodsi, cofondateur et CEO de Databricks. "L'année dernière, nous avons annoncé Delta Lake UniForm pour apporter l'interopérabilité à ces deux formats, et nous sommes ravis de réunir les principaux leaders des formats open data lakehouse pour faire d'UniForm le meilleur moyen d'unifier vos données pour chaque charge de travail."
Un engagement commun en faveur de cette ouverture
Databricks et Tabular ont en commun de défendre les formats open source. Les deux sociétés ont été fondées pour commercialiser les technologies open source créées par les fondateurs et aujourd'hui, Databricks est la société open source indépendante la plus importante et la plus prospère en termes de revenus et a fait don de 12 millions de lignes de code à des projets open source. Cette acquisition souligne l'engagement de Databricks en faveur des formats ouverts et des données open source dans le cloud, ce qui permet aux entreprises de contrôler leurs données et de s'affranchir de l'enfermement créé par les formats propriétaires des vendeurs.
"Nous avons créé Apache Iceberg pour résoudre les problèmes de données critiques liés à l'exactitude, aux performances et à l'évolutivité. Nous avons été stupéfaits de voir Iceberg et Delta Lake gagner massivement en popularité, en grande partie grâce au fait que l'Open Lakehouse est devenu le standard de l'industrie. Avec Tabular qui rejoint Databricks, nous avons l'intention de construire la meilleure plateforme de gestion de données basée sur les formats Lakehouse ouverts afin que les entreprises n'aient pas à se soucier de choisir le "bon" format ou de s'enfermer dans des formats de données propriétaires", a déclaré Ryan Blue, cofondateur et CEO de Tabular.
L'essor de l'architecture des pavillons et l'incompatibilité des formats
Databricks a lancé l'architecture Lakehouse en 2020 pour permettre l'intégration des charges de travail de stockage de données traditionnelles avec les workloads en IA à partir d'une seule copie gouvernée de données. Pour que cela fonctionne, toutes les données doivent être dans un format ouvert afin que différents workloads, applications et machines puissent accéder aux mêmes données. L'architecture Lakehouse maximise la productivité de l'entreprise en démocratisant l'accès aux données. En outre, les données doivent souvent être copiées et exportées pour être utilisées par d'autres applications, ce qui crée un degré élevé de dépendance à l'égard du fournisseur. Quatre ans plus tard, 74 % des entreprises ont déployé une architecture de type "lakehouse".
Les formats de données open source qui permettent d'effectuer des transactions conformes ACID sur des données stockées dans un système de stockage d'objets constituent la base de cette architecture. Ces formats améliorent considérablement la fiabilité et les performances des opérations sur les données dans le data lake et ont été spécifiquement conçus pour les moteurs open source tels qu'Apache Spark™, Trino et Presto. Pour relever ces défis, Databricks a collaboré avec la Fondation Linux pour créer le projet Delta Lake. Depuis sa création, Delta Lake compte plus de 500 contributeurs de code issus d'un ensemble diversifié d'organisations, et plus de 10 000 entreprises dans le monde utilisent Delta Lake pour traiter plus de 4 exaoctets de données en moyenne chaque jour.
À peu près au même moment où Delta Lake a été créé, Ryan Blue et Daniel Weeks ont développé le projet Iceberg chez Netflix et en ont fait don à la Apache Software Foundation. Depuis lors, Delta Lake et Iceberg se sont imposés comme les deux principaux standards open source pour les formats lakehouse. Bien que ces deux formats soient basés sur Apache Parquet et partagent des objectifs et des conceptions similaires, ils sont devenus incompatibles en raison de leur développement indépendant.
Au fil du temps, un certain nombre d'autres moteurs open source et propriétaires ont adopté ces formats. Cependant, ils n'ont généralement adopté qu'une seule des normes et, le plus souvent, une partie seulement de cette norme, ce qui a entraîné la fragmentation et le cloisonnement des données de l'entreprise, sabotant ainsi la valeur de l'architecture Lakehouse.
La voie de l'interopérabilité
Les entreprises ont besoin de l'interopérabilité des données pour réaliser les avantages du Lakehouse, et Databricks travaillera en étroite collaboration avec les communautés Delta Lake et Iceberg pour apporter l'interopérabilité aux formats au fil du temps. Il s'agit d'un long chemin, qui prendra probablement plusieurs années à parcourir dans ces communautés. C'est pourquoi, l'année dernière, Databricks a introduit Delta Lake UniForm. Les tables UniForm assurent l'interopérabilité entre Delta Lake, Iceberg et Hudi, et prennent en charge l'interface de catalogue restful d'Iceberg afin que les entreprises puissent utiliser les machines et les outils d'analyse qui leur sont déjà familiers, pour toutes leurs données. Largement disponible aujourd’hui, UniForm permet aux entreprises de devenir compatibles. Avec l'arrivée de l'équipe originale d'Iceberg, Databricks élargira considérablement les ambitions de Delta Lake UniForm.
"Databricks a été le pionnier du lakehouse et au cours des quatre dernières années, le monde a adopté l'architecture lakehouse, combinant le meilleur des data warehouses et des data lakes pour aider les clients à réduire le coût total de possession, à adopter l'ouverture et à réaliser plus rapidement des projets d'intelligence artificielle. Malheureusement, le paradigme lakehouse a été divisé entre les deux formats les plus populaires : Delta Lake et Iceberg. Databricks et Tabular travailleront avec la communauté open-source pour rapprocher les deux formats au fil du temps, en augmentant l'ouverture et en réduisant les silos et les frictions pour les clients", a déclaré Ali Ghodsi, cofondateur et CEO de Databricks. "L'année dernière, nous avons annoncé Delta Lake UniForm pour apporter l'interopérabilité à ces deux formats, et nous sommes ravis de réunir les principaux leaders des formats open data lakehouse pour faire d'UniForm le meilleur moyen d'unifier vos données pour chaque charge de travail."
Un engagement commun en faveur de cette ouverture
Databricks et Tabular ont en commun de défendre les formats open source. Les deux sociétés ont été fondées pour commercialiser les technologies open source créées par les fondateurs et aujourd'hui, Databricks est la société open source indépendante la plus importante et la plus prospère en termes de revenus et a fait don de 12 millions de lignes de code à des projets open source. Cette acquisition souligne l'engagement de Databricks en faveur des formats ouverts et des données open source dans le cloud, ce qui permet aux entreprises de contrôler leurs données et de s'affranchir de l'enfermement créé par les formats propriétaires des vendeurs.
"Nous avons créé Apache Iceberg pour résoudre les problèmes de données critiques liés à l'exactitude, aux performances et à l'évolutivité. Nous avons été stupéfaits de voir Iceberg et Delta Lake gagner massivement en popularité, en grande partie grâce au fait que l'Open Lakehouse est devenu le standard de l'industrie. Avec Tabular qui rejoint Databricks, nous avons l'intention de construire la meilleure plateforme de gestion de données basée sur les formats Lakehouse ouverts afin que les entreprises n'aient pas à se soucier de choisir le "bon" format ou de s'enfermer dans des formats de données propriétaires", a déclaré Ryan Blue, cofondateur et CEO de Tabular.
Autres articles
-
Qlik améliore l’intégration avec SAP, Databricks et Snowflake et favorise la création de valeur grâce à l’IA
-
Databricks lève 10 milliards de dollars dans une levée de fonds en Série J, avec une valorisation de 62 milliards de dollars
-
La nouvelle plateforme Confluent pour Apache Flink facilite la gestion et la sécurisation du traitement de flux haute performance on-premises
-
Databricks renforce son partenariat avec AWS pour offrir des capacités avancées d'IA générative
-
Databricks renforce son partenariat avec AWS pour offrir des fonctionnalités avancées d'IA générative