Cloudera, fournisseur mondial de la plate-forme de gestion analytique des données d’entreprise basée sur Apache™ Hadoop et les toutes dernières technologies open source, la plus rapide, facile à utiliser et sécurisée du marché, annonce la disponibilité générale de Cloudera Enterprise 5.7. Cette nouvelle version offre des performances inégalées dans les charges de travail clés ; notamment, elle améliore de trois fois en moyenne le traitement des données avec la prise en charge de Hive-on-Spark et de deux fois en moyenne l’analyse BI avec les mises à jour d’Apache Impala (incubating). En outre, cette version offre une visibilité de l’utilisation multitenant dans ces charges de travail pour optimiser la gestion et les ressources. Cloudera Enterprise 5.7 marque une nouvelle étape du développement d’Hadoop qui prend désormais en charge de nouveaux cas d’usage. Ce lancement témoigne en outre du leadership de Cloudera qui offre aux entreprises modernes une plate-forme sur laquelle elles peuvent s’appuyer pour l’ensemble de leurs activités.
« Hadoop a considérablement évolué au cours des dix dernières années et, à chacune de ses avancées, nous pensons que nous pouvons développer cette plate-forme pour de nouvelles applications et de nouveaux cas d’usage, tout en améliorant ce qui a déjà été accompli », déclare Charles Zedlewski, vice-president, Products, Cloudera. « Le développement de l’ingénierie des données et ETL avec Hive-on-Spark marque une étape importante de cette évolution en faisant de Spark le moteur de traitement des données standard dans Hadoop. Toutefois, l’ingénierie des données n’est qu’un aspect de l’entreprise moderne et la version 5.7 va permettre à nos clients d’assurer une meilleure prise en charge d’un large éventail d’utilisateurs sur la plate-forme, tout en préservant ses performances, sa facilité de gestion et sa sécurité », ajoute-t-il.
Le développement ETL et le traitement batch restent les cas d’usage les plus courants d’Hadoop. Apache Hive a longtemps joué un rôle clé pour ces charges de travail, même si cette solution utilisait généralement MapReduce comme moteur d’exécution sous-jacent. Toutefois, compte tenu de sa facilité de développement et de sa rapidité par rapport à MapReduce, Apache Spark joue un rôle de plus en plus important et devrait remplacer MapReduce pour ces charges de travail. L’année dernière, Cloudera a lancé l’initiative One Platform, qui trace une feuille de route pour passer de MapReduce à Spark, et développe cette plate-forme pour mieux intégrer Spark avec Hadoop, en veillant à ce qu’elle réponde aux besoins des entreprises, même pour les charges de travail de production les plus importantes. L’intégration de Hive-on-Spark dans Cloudera 5.7 constitue une étape de plus de la transition vers Spark, car les développeurs peuvent désormais tirer parti de ses puissantes fonctions de traitement des données, tout en continuant à exploiter l’environnement Hive familier, qui offre des performances trois fois supérieures en moyenne. Hive-on-Spark est une initiative communautaire lancée par Cloudera, IBM, Intel, MapR et d’autres, avec le concours de clients de divers secteurs, tels que la publicité, les services financiers et l’assurance, impliqués dans le cadre d’un programme d’accès précoce dédié au développement.
Pour plus de cohérence, Cloudera a travaillé avec son écosystème de plus de 2 300 partenaires pour s’assurer que les clients peuvent continuer à utiliser les principaux outils d’intégration et de préparation de données avec Hive-on-Spark, sans perturber l’activité. Des partenaires tels que BMC, ClearStory Data, Elastic, NGDATA, Solix, Trillium Software, Zementis et d’autres travaillent avec Cloudera pour certifier l’interopérabilité de leurs technologies. (Voir leurs déclarations ci-dessous)
La capacité d’Hadoop à prendre en charge plusieurs cas d’usage des mêmes données partagées dans un cluster est un avantage clé. Avec Cloudera Enterprise, les administrateurs peuvent facilement fournir à ces utilisateurs et applications les bonnes ressources pour exécuter et respecter les contrats de niveau de service critiques. Cette nouvelle version offre aux administrateurs une visibilité complète de l’utilisation et de l’efficacité historiques du cluster entre les utilisateurs, les tenants et les applications. La nouvelle fonctionnalité Cluster Utilization Reporting intégrée dans Cloudera Manager assure l’efficacité des opérations et l’allocation appropriée des ressources entre les groupes et les types de charge de travail, permet de respecter les contrats de niveau de service et simplifie la résolution des problèmes de performance des tâches et des requêtes.
Caractéristiques de Cloudera 5.7 :
● Analyse BI deux fois plus performante : Impala reste le moteur de requêtes SQL le plus rapide pour Hadoop grâce au partition pruning dynamique, au démarrage plus rapide des requêtes et aux filtres d’exécution, entre autres.
● Simplification du passage à la production : Cloudera Manager comprend des modèles de cluster qui fournissent un workflow simple pour reproduire facilement les paramètres de configuration sur de nouveaux clusters, ce qui facilite le passage d’un environnement de test bien réglé à la production à grande échelle ou accélère le retour à une bonne configuration connue en cas de problèmes.
● Optimisation de la gouvernance des données : Cloudera Navigator ouvre la gestion et la gouvernance des données aux utilisateurs en simplifiant la traçabilité pour établir la fiabilité et la provenance des données, et ajoute des métadonnées gérées pour améliorer la capacité à explorer ces données et la cohérence entre les systèmes.
Cloudera 5.7 est disponible sur www.cloudera.com/downloads.
« Hadoop a considérablement évolué au cours des dix dernières années et, à chacune de ses avancées, nous pensons que nous pouvons développer cette plate-forme pour de nouvelles applications et de nouveaux cas d’usage, tout en améliorant ce qui a déjà été accompli », déclare Charles Zedlewski, vice-president, Products, Cloudera. « Le développement de l’ingénierie des données et ETL avec Hive-on-Spark marque une étape importante de cette évolution en faisant de Spark le moteur de traitement des données standard dans Hadoop. Toutefois, l’ingénierie des données n’est qu’un aspect de l’entreprise moderne et la version 5.7 va permettre à nos clients d’assurer une meilleure prise en charge d’un large éventail d’utilisateurs sur la plate-forme, tout en préservant ses performances, sa facilité de gestion et sa sécurité », ajoute-t-il.
Le développement ETL et le traitement batch restent les cas d’usage les plus courants d’Hadoop. Apache Hive a longtemps joué un rôle clé pour ces charges de travail, même si cette solution utilisait généralement MapReduce comme moteur d’exécution sous-jacent. Toutefois, compte tenu de sa facilité de développement et de sa rapidité par rapport à MapReduce, Apache Spark joue un rôle de plus en plus important et devrait remplacer MapReduce pour ces charges de travail. L’année dernière, Cloudera a lancé l’initiative One Platform, qui trace une feuille de route pour passer de MapReduce à Spark, et développe cette plate-forme pour mieux intégrer Spark avec Hadoop, en veillant à ce qu’elle réponde aux besoins des entreprises, même pour les charges de travail de production les plus importantes. L’intégration de Hive-on-Spark dans Cloudera 5.7 constitue une étape de plus de la transition vers Spark, car les développeurs peuvent désormais tirer parti de ses puissantes fonctions de traitement des données, tout en continuant à exploiter l’environnement Hive familier, qui offre des performances trois fois supérieures en moyenne. Hive-on-Spark est une initiative communautaire lancée par Cloudera, IBM, Intel, MapR et d’autres, avec le concours de clients de divers secteurs, tels que la publicité, les services financiers et l’assurance, impliqués dans le cadre d’un programme d’accès précoce dédié au développement.
Pour plus de cohérence, Cloudera a travaillé avec son écosystème de plus de 2 300 partenaires pour s’assurer que les clients peuvent continuer à utiliser les principaux outils d’intégration et de préparation de données avec Hive-on-Spark, sans perturber l’activité. Des partenaires tels que BMC, ClearStory Data, Elastic, NGDATA, Solix, Trillium Software, Zementis et d’autres travaillent avec Cloudera pour certifier l’interopérabilité de leurs technologies. (Voir leurs déclarations ci-dessous)
La capacité d’Hadoop à prendre en charge plusieurs cas d’usage des mêmes données partagées dans un cluster est un avantage clé. Avec Cloudera Enterprise, les administrateurs peuvent facilement fournir à ces utilisateurs et applications les bonnes ressources pour exécuter et respecter les contrats de niveau de service critiques. Cette nouvelle version offre aux administrateurs une visibilité complète de l’utilisation et de l’efficacité historiques du cluster entre les utilisateurs, les tenants et les applications. La nouvelle fonctionnalité Cluster Utilization Reporting intégrée dans Cloudera Manager assure l’efficacité des opérations et l’allocation appropriée des ressources entre les groupes et les types de charge de travail, permet de respecter les contrats de niveau de service et simplifie la résolution des problèmes de performance des tâches et des requêtes.
Caractéristiques de Cloudera 5.7 :
● Analyse BI deux fois plus performante : Impala reste le moteur de requêtes SQL le plus rapide pour Hadoop grâce au partition pruning dynamique, au démarrage plus rapide des requêtes et aux filtres d’exécution, entre autres.
● Simplification du passage à la production : Cloudera Manager comprend des modèles de cluster qui fournissent un workflow simple pour reproduire facilement les paramètres de configuration sur de nouveaux clusters, ce qui facilite le passage d’un environnement de test bien réglé à la production à grande échelle ou accélère le retour à une bonne configuration connue en cas de problèmes.
● Optimisation de la gouvernance des données : Cloudera Navigator ouvre la gestion et la gouvernance des données aux utilisateurs en simplifiant la traçabilité pour établir la fiabilité et la provenance des données, et ajoute des métadonnées gérées pour améliorer la capacité à explorer ces données et la cohérence entre les systèmes.
Cloudera 5.7 est disponible sur www.cloudera.com/downloads.
Autres articles
-
Cloudera s'associe à Snowflake et intègre la gestion des données hybrides basée sur Iceberg
-
Cloudera dévoile sa vision d'un véritable cloud hybride lors d’EVOLVE24 New York
-
Cloudera présente un service d'inférence IA avec microservices NVIDIA NIM pour accélérer le développement et le déploiement de la GenAI
-
Cloudera dévoile une nouvelle suite d'accélérateurs pour les projets de machine learning (AMP)
-
Cloudera renforce la gestion des métadonnées avec un catalogue de données modernisé et l’intégration d’Iceberg REST