Ali Ghodsi, CEO et cofondateur de Databricks
La Linux Foundation, organisation à but non lucratif qui favorise l'innovation de masse grâce à l'open source, accueille Delta Lake, un projet visant à améliorer la fiabilité, la qualité et les performances des data lakes. Delta Lake, annoncé par Databricks en début d’année, a été adopté par des milliers d'organisations et compte un écosystème de partisans, dont Intel, Alibaba et Booz Allen Hamilton. Pour favoriser davantage l'adoption et les contributions, Delta Lake devient un projet de la Linux Foundation selon un modèle de gouvernance ouvert.
Chaque organisation aspire à tirer plus de valeur des données grâce à la science des données, au machine learning et à l'analytique. Cependant, le manque de fiabilité des données au sein des data lakes constitue un obstacle de taille. Delta Lake s'attaque aux problèmes de fiabilité des données en rendant les transactions conformes à la norme ACID et en permettant la lecture et l'écriture simultanées. Sa capacité d'application des schémas permet de s'assurer que le data lake est exempt de données corrompues et non conformes. Depuis son lancement en octobre 2017, Delta Lake a été adopté par plus de 4 000 organisations et traite plus de deux exaoctets de données par mois.
« Placer Delta Lake sous l’objectivité de la Linux Foundation aidera la communauté open source dépendante du projet à développer la technologie portant sur la manière dont les données sont traitées et stockées, tant sur site que dans le cloud », déclare Michael Dolan, vice-président des programmes stratégiques à la Linux Foundation. « La Linux Foundation aide les communautés open source à tirer parti d'un modèle de gouvernance ouvert pour permettre une large contribution de l'industrie et la recherche de consensus, ce qui améliorera l'état de l'art en matière de stockage et de fiabilité des données. »
Les cofondateurs de Databricks sont les créateurs à l’origine du projet open source Apache Spark, le moteur analytique unifié devenu la norme de facto pour le traitement de données à grande échelle. Ali Ghodsi, CEO et cofondateur de Databricks, s'est dit enthousiaste à l'idée de repartir dans une aventure similaire avec le projet Delta Lake. « Notre équipe continue à créer et à contribuer à des projets open source parce que nous savons que c'est le moyen le plus rapide et le plus complet d'innover. Pour répondre aux problématiques des organisations en matière de données, nous voulons nous assurer que ce projet est open source sous sa forme la plus vraie. Grâce à la force de la communauté Linux Foundation et à ses contributions, nous sommes convaincus que Delta Lake deviendra rapidement la norme pour le stockage de données dans les data lakes. »
Delta Lake sera doté d'un modèle de gouvernance ouvert qui encouragera la participation et la contribution technique, et fournira un cadre pour l'intendance à long terme d'un écosystème investi dans le succès de Delta Lake.
Bien qu'initialement conçu pour fonctionner avec Apache Spark, Delta Lake a développé une communauté florissante qui ajoute son soutien à d'autres systèmes de données open source.
« En tant que fournisseur cloud majeur, Alibaba est un leader, contributeur, consommateur et partisan de diverses initiatives open source, en particulier dans le domaine des big data et de l'IA. Nous avons travaillé avec Databricks sur un connecteur Hive natif pour Delta Lake sur le front open source, et nous sommes ravis de voir le projet rejoindre la Linux Foundation. » - Yangqing Jia, VP Big Data / AI chez Alibaba
« Intel et Databricks collaborent depuis longtemps pour faire progresser la technologie Apache Spark grâce à des solutions analytiques et d’IA innovantes. La contribution Delta Lake de Databricks à la Linux Foundation est une importante technologie de stockage open source qui peut aider l'écosystème à améliorer la fiabilité des data lakes. » - Wei Li, Vice President, Intel Architecture, Graphics and Softwareand General Manager, Machine Learning Performance
Chaque organisation aspire à tirer plus de valeur des données grâce à la science des données, au machine learning et à l'analytique. Cependant, le manque de fiabilité des données au sein des data lakes constitue un obstacle de taille. Delta Lake s'attaque aux problèmes de fiabilité des données en rendant les transactions conformes à la norme ACID et en permettant la lecture et l'écriture simultanées. Sa capacité d'application des schémas permet de s'assurer que le data lake est exempt de données corrompues et non conformes. Depuis son lancement en octobre 2017, Delta Lake a été adopté par plus de 4 000 organisations et traite plus de deux exaoctets de données par mois.
« Placer Delta Lake sous l’objectivité de la Linux Foundation aidera la communauté open source dépendante du projet à développer la technologie portant sur la manière dont les données sont traitées et stockées, tant sur site que dans le cloud », déclare Michael Dolan, vice-président des programmes stratégiques à la Linux Foundation. « La Linux Foundation aide les communautés open source à tirer parti d'un modèle de gouvernance ouvert pour permettre une large contribution de l'industrie et la recherche de consensus, ce qui améliorera l'état de l'art en matière de stockage et de fiabilité des données. »
Les cofondateurs de Databricks sont les créateurs à l’origine du projet open source Apache Spark, le moteur analytique unifié devenu la norme de facto pour le traitement de données à grande échelle. Ali Ghodsi, CEO et cofondateur de Databricks, s'est dit enthousiaste à l'idée de repartir dans une aventure similaire avec le projet Delta Lake. « Notre équipe continue à créer et à contribuer à des projets open source parce que nous savons que c'est le moyen le plus rapide et le plus complet d'innover. Pour répondre aux problématiques des organisations en matière de données, nous voulons nous assurer que ce projet est open source sous sa forme la plus vraie. Grâce à la force de la communauté Linux Foundation et à ses contributions, nous sommes convaincus que Delta Lake deviendra rapidement la norme pour le stockage de données dans les data lakes. »
Delta Lake sera doté d'un modèle de gouvernance ouvert qui encouragera la participation et la contribution technique, et fournira un cadre pour l'intendance à long terme d'un écosystème investi dans le succès de Delta Lake.
Bien qu'initialement conçu pour fonctionner avec Apache Spark, Delta Lake a développé une communauté florissante qui ajoute son soutien à d'autres systèmes de données open source.
« En tant que fournisseur cloud majeur, Alibaba est un leader, contributeur, consommateur et partisan de diverses initiatives open source, en particulier dans le domaine des big data et de l'IA. Nous avons travaillé avec Databricks sur un connecteur Hive natif pour Delta Lake sur le front open source, et nous sommes ravis de voir le projet rejoindre la Linux Foundation. » - Yangqing Jia, VP Big Data / AI chez Alibaba
« Intel et Databricks collaborent depuis longtemps pour faire progresser la technologie Apache Spark grâce à des solutions analytiques et d’IA innovantes. La contribution Delta Lake de Databricks à la Linux Foundation est une importante technologie de stockage open source qui peut aider l'écosystème à améliorer la fiabilité des data lakes. » - Wei Li, Vice President, Intel Architecture, Graphics and Softwareand General Manager, Machine Learning Performance