Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Databricks annonce l'acquisition de Tabular, la société fondée par les créateurs d'Apache Iceberg


Rédigé par Communiqué de Databricks le 6 Juin 2024

Databricks et Tabular travailleront ensemble à une vision commune de l'open lakehouse.



Databricks, la société spécialisée dans les données et l'IA, annonce aujourd'hui qu'elle a conclu un accord pour acquérir Tabular, une société de gestion de données fondée par Ryan Blue, Daniel Weeks et Jason Reid. En réunissant les créateurs originaux d'Apache Iceberg™ et de Linux Foundation Delta Lake, les deux principaux formats de lakehouse open source, Databricks ouvrira la voie à la compatibilité des données afin que les organisations ne soient plus limitées par le choix de l'un ou l'autre de ces formats pour leurs données. Databricks a l'intention de travailler en étroite collaboration avec les communautés Delta Lake et Iceberg pour apporter la compatibilité de format au Lakehouse ; à court terme, à l'intérieur de Delta Lake UniForm et, à long terme, en évoluant vers un standard d'interopérabilité unique, ouvert et commun. Databricks et Tabular travailleront ensemble à la réalisation d'une vision commune d’open lakehouse.

L'essor de l'architecture des pavillons et l'incompatibilité des formats

Databricks a lancé l'architecture Lakehouse en 2020 pour permettre l'intégration des charges de travail de stockage de données traditionnelles avec les workloads en IA à partir d'une seule copie gouvernée de données. Pour que cela fonctionne, toutes les données doivent être dans un format ouvert afin que différents workloads, applications et machines puissent accéder aux mêmes données. L'architecture Lakehouse maximise la productivité de l'entreprise en démocratisant l'accès aux données. En outre, les données doivent souvent être copiées et exportées pour être utilisées par d'autres applications, ce qui crée un degré élevé de dépendance à l'égard du fournisseur. Quatre ans plus tard, 74 % des entreprises ont déployé une architecture de type "lakehouse".

Les formats de données open source qui permettent d'effectuer des transactions conformes ACID sur des données stockées dans un système de stockage d'objets constituent la base de cette architecture. Ces formats améliorent considérablement la fiabilité et les performances des opérations sur les données dans le data lake et ont été spécifiquement conçus pour les moteurs open source tels qu'Apache Spark™, Trino et Presto. Pour relever ces défis, Databricks a collaboré avec la Fondation Linux pour créer le projet Delta Lake. Depuis sa création, Delta Lake compte plus de 500 contributeurs de code issus d'un ensemble diversifié d'organisations, et plus de 10 000 entreprises dans le monde utilisent Delta Lake pour traiter plus de 4 exaoctets de données en moyenne chaque jour.

À peu près au même moment où Delta Lake a été créé, Ryan Blue et Daniel Weeks ont développé le projet Iceberg chez Netflix et en ont fait don à la Apache Software Foundation. Depuis lors, Delta Lake et Iceberg se sont imposés comme les deux principaux standards open source pour les formats lakehouse. Bien que ces deux formats soient basés sur Apache Parquet et partagent des objectifs et des conceptions similaires, ils sont devenus incompatibles en raison de leur développement indépendant.

Au fil du temps, un certain nombre d'autres moteurs open source et propriétaires ont adopté ces formats. Cependant, ils n'ont généralement adopté qu'une seule des normes et, le plus souvent, une partie seulement de cette norme, ce qui a entraîné la fragmentation et le cloisonnement des données de l'entreprise, sabotant ainsi la valeur de l'architecture Lakehouse.

La voie de l'interopérabilité

Les entreprises ont besoin de l'interopérabilité des données pour réaliser les avantages du Lakehouse, et Databricks travaillera en étroite collaboration avec les communautés Delta Lake et Iceberg pour apporter l'interopérabilité aux formats au fil du temps. Il s'agit d'un long chemin, qui prendra probablement plusieurs années à parcourir dans ces communautés. C'est pourquoi, l'année dernière, Databricks a introduit Delta Lake UniForm. Les tables UniForm assurent l'interopérabilité entre Delta Lake, Iceberg et Hudi, et prennent en charge l'interface de catalogue restful d'Iceberg afin que les entreprises puissent utiliser les machines et les outils d'analyse qui leur sont déjà familiers, pour toutes leurs données. Largement disponible aujourd’hui, UniForm permet aux entreprises de devenir compatibles. Avec l'arrivée de l'équipe originale d'Iceberg, Databricks élargira considérablement les ambitions de Delta Lake UniForm.

"Databricks a été le pionnier du lakehouse et au cours des quatre dernières années, le monde a adopté l'architecture lakehouse, combinant le meilleur des data warehouses et des data lakes pour aider les clients à réduire le coût total de possession, à adopter l'ouverture et à réaliser plus rapidement des projets d'intelligence artificielle. Malheureusement, le paradigme lakehouse a été divisé entre les deux formats les plus populaires : Delta Lake et Iceberg. Databricks et Tabular travailleront avec la communauté open-source pour rapprocher les deux formats au fil du temps, en augmentant l'ouverture et en réduisant les silos et les frictions pour les clients", a déclaré Ali Ghodsi, cofondateur et CEO de Databricks. "L'année dernière, nous avons annoncé Delta Lake UniForm pour apporter l'interopérabilité à ces deux formats, et nous sommes ravis de réunir les principaux leaders des formats open data lakehouse pour faire d'UniForm le meilleur moyen d'unifier vos données pour chaque charge de travail."

Un engagement commun en faveur de cette ouverture

Databricks et Tabular ont en commun de défendre les formats open source. Les deux sociétés ont été fondées pour commercialiser les technologies open source créées par les fondateurs et aujourd'hui, Databricks est la société open source indépendante la plus importante et la plus prospère en termes de revenus et a fait don de 12 millions de lignes de code à des projets open source. Cette acquisition souligne l'engagement de Databricks en faveur des formats ouverts et des données open source dans le cloud, ce qui permet aux entreprises de contrôler leurs données et de s'affranchir de l'enfermement créé par les formats propriétaires des vendeurs.

"Nous avons créé Apache Iceberg pour résoudre les problèmes de données critiques liés à l'exactitude, aux performances et à l'évolutivité. Nous avons été stupéfaits de voir Iceberg et Delta Lake gagner massivement en popularité, en grande partie grâce au fait que l'Open Lakehouse est devenu le standard de l'industrie. Avec Tabular qui rejoint Databricks, nous avons l'intention de construire la meilleure plateforme de gestion de données basée sur les formats Lakehouse ouverts afin que les entreprises n'aient pas à se soucier de choisir le "bon" format ou de s'enfermer dans des formats de données propriétaires", a déclaré Ryan Blue, cofondateur et CEO de Tabular.




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store