Cloudera, leader de la gestion analytique des données d’entreprise basée sur Apache Hadoop™, annonce la disponibilité de la version bêta publique de Kudu, un nouveau système de stockage orienté colonnes pour Hadoop, accélérant l’analyse des données. Complétant les options de stockage Hadoop existantes – HDFS et Apache HBase – Kudu est le premier moteur de stockage Hadoop natif qui supporte à la fois les accès aléatoires à basse latence et les analyses haut-débit, et qui simplifie considérablement les architectures Hadoop pour des utilisations en temps réel de plus en plus répandues. Une version bêta publique est disponible immédiatement sous licence open source Apache et sera transféré vers l’incubateur de l’Apache Software Foundation dans le futur.
Jusqu’à aujourd’hui, les développeurs étaient forcés de choisir entre une analyse rapide avec HDFS et une mise à jour efficace avec HBase. Avec l’augmentation des volumes de données en streaming, les entreprises ont de plus en plus besoin de combiner les deux fonctionnalités pour construire des applications analytiques en temps réel basées sur des données variables – ce qui a encouragé les développeurs à créer des architectures complexes à l’aide des options de stockage disponibles. Kudu vient compléter les fonctionnalités de HDFS et HBase, en fournissant des fonctions d’insertion et d’actualisation rapides, ainsi que des scans de colonnes particulièrement efficaces. Cette combinaison puissante facilite la gestion de flux d’analyses en temps réel reposant sur une couche unique de stockage, ce qui élimine le besoin d’architectures complexes.
« Nous contribuons à améliorer Hadoop depuis le départ » déclare Charles Zedlewski, Vice President Products chez Cloudera. « Nous nous sommes donné une mission ambitieuse : favoriser constamment l’innovation au sein de la communauté afin de développer la nouvelle génération de systèmes analytiques supportée par Hadoop, tout en aidant les entreprises à s’approprier les toutes dernières technologies. Cloudera a déjà transformé en profondeur le paysage Hadoop, en permettant notamment la découverte et l’analyse interactives de données avec Impala, ainsi que les traitements et le streaming de données avec Apache Spark. Kudu prolonge cette tendance en révolutionnant l’architecture de stockage Hadoop afin de mieux supporter le développement d’applications analytiques en temps réel. Il contribue à franchir une étape supplémentaire pour confirmer Hadoop en tant que première plate-forme pour l’analytique de nouvelle génération. »
L’architecture de Kudu aide les développeurs à rationaliser la construction d’applications analytiques, en supportant les cas d’usages les plus courants comme l’analyse de séries temporelles, l’analyse de données machines et le reporting en ligne. De plus, Kudu est conçu pour tirer parti des dernières évolutions des matériels hardware et des traitements en mémoire. Il délivre d’excellentes performances CPU, tire parti des mémoires RAM et Flash, et améliore la gestion des E/S en tant que véritable base de données orientée colonnes. Enfin, composant ouvert et natif d’Hadoop, Kudu est intégré avec et fournit de meilleures performances de requêtage pour les environnements analytiques les plus puissants. Les utilisateurs tirent déjà largement parti de ceux-ci – dont Impala et Spark – pour des applications analytiques de bout en bout reposant sur une plate-forme unique.
Kudu a été conçu par Cloudera et Intel qui ont anticipé l’évolution du paysage hardware. Intel a contribué activement à Kudu, afin de s’assurer qu’il tire le meilleur parti de ses technologies de processeurs et de mémoire actuelles et futures. Kudu a été conçu pour utiliser les innovations développées à travers « pmem », le projet de mémoire persistante d’Intel.
« A mesure qu’évolue l’analytique Hadoop, il est essentiel que les applications soient développées pour tirer parti de la nouvelle génération de hardware » déclare Vin Sharma, Directeur de la stratégie et des produits Big Data chez Intel. « Kudu marque une étape fondamentale pour Hadoop, en répondant au besoin accru d’applications temps réel simplifiées. Intel a collaboré avec Cloudera et la communauté afin d’optimiser aujourd’hui Kudu pour l’analyse accélérée, mais également pour utiliser les futures innovations d’Intel, telles que Intel DIMMs et 3D XPoint memory. »
En tant que projet open source, Kudu a suscité une large implication de la communauté. Xiaomi, l’un des principaux fabricants mondiaux de smartphones, est l’un des premiers bêta-testeurs de Kudu et a contribué activement au projet. D’autres entreprises, comme AtScale, Splice Machine et Zoomdata ont également enrichi Kudu.
« Xiaomi contribue à l’écosystème Hadoop depuis longtemps et l’utilise pour répondre à un large éventail de cas d’utilisation » déclare Baoqiu Cui, Chief Architect chez Xiaomi. « Notre équipe en charge de l’infrastructure a collaboré avec Cloudera pour développer Kudu, en tirant parti de sa capacité unique à supporter des scans de colonnes, ainsi que des insertions et des mises à jour rapides pour amplifier notre utilisation d’Hadoop. En utilisant Kudu, en combinaison avec des outils SQL interactifs tels qu’Impala, nous avons été en mesure de construire la nouvelle génération de plates-formes analytiques dédiée au reporting en ligne et à l’analyse en temps réel. Nous sommes impatients de prolonger notre collaboration avec la communauté pour continuer à enrichir et à unifier Kudu et Hadoop. »
« Kudu facilite le développement de la nouvelle génération d’architectures analytiques, particulièrement dans le cadre de programmes de business intelligence (BI). Supportant à la fois la lecture et l’écriture de gros volumes en mode aléatoire et séquentiel, il forme le système de stockage idéal pour les architectures de BI à faible latence et forte montée en charge, dont ont besoin les clients d’AtScale. A mesure que les entreprises chercheront à démocratiser l’accès aux données et permettront à Hadoop de traiter des charges de travail analytiques accélérées et à large échelle, Kudu jouera un rôle de plus en plus critique » commente Josh Klahr, VP Product Management chez AtScale. « Solide contributeur de l’écosystème open source Apache Hadoop, AtScale va participer à cet effort communautaire et est fier de le développer pour ses clients. »
« Nous sommes fiers de faire partie de la communauté Kudu » ajoute John Leach, co-fondateur et CTO de Splice Machine. « Chez Splice Machine, nous avons développé un RDBMS conforme ACID qui repose sur Hadoop et prolongeons nos efforts pour exécuter des charges de travail mixtes sur Hadoop. En conséquence, nous accueillons favorablement et supportons l’innovation dans l’architecture de stockage Hadoop. Kudu véhicule d’importantes promesses, notamment grâce à sa capacité à prendre en charge des mises à jour en temps réel combinées à des analyses à long-terme. Il renforce l’écosystème Hadoop, en fournissant un moteur de stockage évolutif et alternatif qui vient compléter les systèmes existants. »
« Kudu fournit une architecture de stockage simplifiée permettant de répondre à des cas d’utilisation très répandus chez les utilisateurs de Zoomdata » précise Justin Langseth, CEO de Zoomdata. « En tant que composant natif d’Hadoop, son intégration avec Impala et Spark facilite l’exploitation des données via la solution analytique visuelle et rapide de Zoomdata. Nous avons collaboré étroitement avec la communauté et Cloudera pour développer Kudu et répondre aux besoins de nos clients – supporter la combinaison d’applications analytiques et temps réel – et nous sommes fiers de prolonger cet effort avec le lancement de la version bêta publique. »
Pour aider les entreprises à être orientée vers les données, l’architecture Hadoop doit fonctionner à la même vitesse que sont créées et modifiées les données. Avec Kudu, la communauté Hadoop entre dans la nouvelle génération d’applications Hadoop, dotées d’un système de stockage capable d’assurer des analyses accélérées.
« A l’ère des données générées par des machines, il est de plus en plus essentiel d’analyser des données en temps réel. Ceci se vérifie à travers un large éventail de cas d’usage analytiques, depuis la surveillance et la business intelligence, jusqu’à la modélisation prédictive et la recommandation » conclut Curt Monash, Président de Monash Research. « Kudu, Spark et le reste du stack Hadoop apportent une réponse prometteuse à l’ensemble de ces besoins. »
Jusqu’à aujourd’hui, les développeurs étaient forcés de choisir entre une analyse rapide avec HDFS et une mise à jour efficace avec HBase. Avec l’augmentation des volumes de données en streaming, les entreprises ont de plus en plus besoin de combiner les deux fonctionnalités pour construire des applications analytiques en temps réel basées sur des données variables – ce qui a encouragé les développeurs à créer des architectures complexes à l’aide des options de stockage disponibles. Kudu vient compléter les fonctionnalités de HDFS et HBase, en fournissant des fonctions d’insertion et d’actualisation rapides, ainsi que des scans de colonnes particulièrement efficaces. Cette combinaison puissante facilite la gestion de flux d’analyses en temps réel reposant sur une couche unique de stockage, ce qui élimine le besoin d’architectures complexes.
« Nous contribuons à améliorer Hadoop depuis le départ » déclare Charles Zedlewski, Vice President Products chez Cloudera. « Nous nous sommes donné une mission ambitieuse : favoriser constamment l’innovation au sein de la communauté afin de développer la nouvelle génération de systèmes analytiques supportée par Hadoop, tout en aidant les entreprises à s’approprier les toutes dernières technologies. Cloudera a déjà transformé en profondeur le paysage Hadoop, en permettant notamment la découverte et l’analyse interactives de données avec Impala, ainsi que les traitements et le streaming de données avec Apache Spark. Kudu prolonge cette tendance en révolutionnant l’architecture de stockage Hadoop afin de mieux supporter le développement d’applications analytiques en temps réel. Il contribue à franchir une étape supplémentaire pour confirmer Hadoop en tant que première plate-forme pour l’analytique de nouvelle génération. »
L’architecture de Kudu aide les développeurs à rationaliser la construction d’applications analytiques, en supportant les cas d’usages les plus courants comme l’analyse de séries temporelles, l’analyse de données machines et le reporting en ligne. De plus, Kudu est conçu pour tirer parti des dernières évolutions des matériels hardware et des traitements en mémoire. Il délivre d’excellentes performances CPU, tire parti des mémoires RAM et Flash, et améliore la gestion des E/S en tant que véritable base de données orientée colonnes. Enfin, composant ouvert et natif d’Hadoop, Kudu est intégré avec et fournit de meilleures performances de requêtage pour les environnements analytiques les plus puissants. Les utilisateurs tirent déjà largement parti de ceux-ci – dont Impala et Spark – pour des applications analytiques de bout en bout reposant sur une plate-forme unique.
Kudu a été conçu par Cloudera et Intel qui ont anticipé l’évolution du paysage hardware. Intel a contribué activement à Kudu, afin de s’assurer qu’il tire le meilleur parti de ses technologies de processeurs et de mémoire actuelles et futures. Kudu a été conçu pour utiliser les innovations développées à travers « pmem », le projet de mémoire persistante d’Intel.
« A mesure qu’évolue l’analytique Hadoop, il est essentiel que les applications soient développées pour tirer parti de la nouvelle génération de hardware » déclare Vin Sharma, Directeur de la stratégie et des produits Big Data chez Intel. « Kudu marque une étape fondamentale pour Hadoop, en répondant au besoin accru d’applications temps réel simplifiées. Intel a collaboré avec Cloudera et la communauté afin d’optimiser aujourd’hui Kudu pour l’analyse accélérée, mais également pour utiliser les futures innovations d’Intel, telles que Intel DIMMs et 3D XPoint memory. »
En tant que projet open source, Kudu a suscité une large implication de la communauté. Xiaomi, l’un des principaux fabricants mondiaux de smartphones, est l’un des premiers bêta-testeurs de Kudu et a contribué activement au projet. D’autres entreprises, comme AtScale, Splice Machine et Zoomdata ont également enrichi Kudu.
« Xiaomi contribue à l’écosystème Hadoop depuis longtemps et l’utilise pour répondre à un large éventail de cas d’utilisation » déclare Baoqiu Cui, Chief Architect chez Xiaomi. « Notre équipe en charge de l’infrastructure a collaboré avec Cloudera pour développer Kudu, en tirant parti de sa capacité unique à supporter des scans de colonnes, ainsi que des insertions et des mises à jour rapides pour amplifier notre utilisation d’Hadoop. En utilisant Kudu, en combinaison avec des outils SQL interactifs tels qu’Impala, nous avons été en mesure de construire la nouvelle génération de plates-formes analytiques dédiée au reporting en ligne et à l’analyse en temps réel. Nous sommes impatients de prolonger notre collaboration avec la communauté pour continuer à enrichir et à unifier Kudu et Hadoop. »
« Kudu facilite le développement de la nouvelle génération d’architectures analytiques, particulièrement dans le cadre de programmes de business intelligence (BI). Supportant à la fois la lecture et l’écriture de gros volumes en mode aléatoire et séquentiel, il forme le système de stockage idéal pour les architectures de BI à faible latence et forte montée en charge, dont ont besoin les clients d’AtScale. A mesure que les entreprises chercheront à démocratiser l’accès aux données et permettront à Hadoop de traiter des charges de travail analytiques accélérées et à large échelle, Kudu jouera un rôle de plus en plus critique » commente Josh Klahr, VP Product Management chez AtScale. « Solide contributeur de l’écosystème open source Apache Hadoop, AtScale va participer à cet effort communautaire et est fier de le développer pour ses clients. »
« Nous sommes fiers de faire partie de la communauté Kudu » ajoute John Leach, co-fondateur et CTO de Splice Machine. « Chez Splice Machine, nous avons développé un RDBMS conforme ACID qui repose sur Hadoop et prolongeons nos efforts pour exécuter des charges de travail mixtes sur Hadoop. En conséquence, nous accueillons favorablement et supportons l’innovation dans l’architecture de stockage Hadoop. Kudu véhicule d’importantes promesses, notamment grâce à sa capacité à prendre en charge des mises à jour en temps réel combinées à des analyses à long-terme. Il renforce l’écosystème Hadoop, en fournissant un moteur de stockage évolutif et alternatif qui vient compléter les systèmes existants. »
« Kudu fournit une architecture de stockage simplifiée permettant de répondre à des cas d’utilisation très répandus chez les utilisateurs de Zoomdata » précise Justin Langseth, CEO de Zoomdata. « En tant que composant natif d’Hadoop, son intégration avec Impala et Spark facilite l’exploitation des données via la solution analytique visuelle et rapide de Zoomdata. Nous avons collaboré étroitement avec la communauté et Cloudera pour développer Kudu et répondre aux besoins de nos clients – supporter la combinaison d’applications analytiques et temps réel – et nous sommes fiers de prolonger cet effort avec le lancement de la version bêta publique. »
Pour aider les entreprises à être orientée vers les données, l’architecture Hadoop doit fonctionner à la même vitesse que sont créées et modifiées les données. Avec Kudu, la communauté Hadoop entre dans la nouvelle génération d’applications Hadoop, dotées d’un système de stockage capable d’assurer des analyses accélérées.
« A l’ère des données générées par des machines, il est de plus en plus essentiel d’analyser des données en temps réel. Ceci se vérifie à travers un large éventail de cas d’usage analytiques, depuis la surveillance et la business intelligence, jusqu’à la modélisation prédictive et la recommandation » conclut Curt Monash, Président de Monash Research. « Kudu, Spark et le reste du stack Hadoop apportent une réponse prometteuse à l’ensemble de ces besoins. »
Autres articles
-
Cloudera s'associe à Snowflake et intègre la gestion des données hybrides basée sur Iceberg
-
Cloudera dévoile sa vision d'un véritable cloud hybride lors d’EVOLVE24 New York
-
Cloudera présente un service d'inférence IA avec microservices NVIDIA NIM pour accélérer le développement et le déploiement de la GenAI
-
Cloudera dévoile une nouvelle suite d'accélérateurs pour les projets de machine learning (AMP)
-
Cloudera renforce la gestion des métadonnées avec un catalogue de données modernisé et l’intégration d’Iceberg REST