Cloudera lance une initiative pour unifier Apache Spark et Apache Hadoop

Cloudera, leader de la gestion analytique des données d’entreprise basée sur Apache Hadoop™, annonce le lancement de son initiative « One Platform » qui vise à accélérer le développement d’Apache Spark pour l’entreprise. Spark est déjà le projet open source le plus populaire de l’écosystème Hadoop et cette initiative lui permettra de succéder à l’environnement MapReduce pour les traitements de données Hadoop. En intégrant étroitement Spark à la plate-forme, dans des domaines couvrant l’administration, la sécurité, l’évolutivité et le streaming, « One Platform » favorisera la création d’une nouvelle génération d’applications analytiques.
Au cours des 18 derniers mois, l’adoption de Spark s’est accrue : plus de 200 clients de Cloudera issus de multiples secteurs d’activité – dont notamment Avvo, Barclays, Concur, DigitalGlobe, RelayHealth et Santander UK – ont choisi Spark pour répondre à des cas d’usage variés. Prenant conscience que Spark a le potentiel pour devenir le moteur de traitement général d’Hadoop grâce à sa facilité d’utilisation pour les développeurs, sa flexibilité et sa modularité, et ses performances, Cloudera a investi massivement dans l’ingénierie, le support, les services et la formation afin de garantir la réussite des projets Spark de ses clients.
« Spark devient rapidement le complément le plus populaire d’Hadoop, à mesure que les entreprises cherchent un moteur d’exécution facile à utiliser, rapide et polyvalent pour répondre à leurs besoins analytiques – streaming, traitements orientés graphe et même machine learning » déclare Nik Rouda, Senior Analyst chez ESG. « Cloudera a consenti d’importants investissements pour développer et supporter Spark, tout en en faisant la pierre angulaire de son offre. Le marché des Big Data va continuer à évoluer rapidement, mais ceci garantit non seulement que Cloudera sera pertinent, mais restera à l’avenir le leader de ce marché. »
Premier fournisseur Hadoop ayant fait le choix de commercialiser et supporter Spark, Cloudera est un leader de la communauté Spark et en particulier de l’intégration de Spark et Hadoop. Avec plus de cinq fois plus de ressources dédiées à l’ingénierie que tout autre éditeur Hadoop, Cloudera a contribué au développement de Spark en fournissant plus de 370 patches et 43 000 lignes de code. Parallèlement, son développement en collaboration avec son partenaire Intel est considéré comme stratégique. En conséquence, Spark est un composant profondément intégré et très largement utilisé de la plate-forme Hadoop de Cloudera. Cette expérience de production lui a permis de maîtriser parfaitement les défis liés à l’exploitation de Spark dans des environnements étendus d’entreprise, tout en améliorant son appréhension des besoins des équipes d’ingénierie et analytiques.
« Spark est bien parti pour prendre la succession de MapReduce. S’il permet d’exécuter des centaines de jobs simultanément et fonctionne sur des clusters multi-tenant dotés de dizaines de milliers de nœuds, il reste quelques ajustements à apporter » déclare Mike Olson, Fondateur et Chief Strategy Officer chez Cloudera. « C’est un objectif ambitieux, mais avec notre communauté de développeurs et de partenaires, et avec notre leadership, nous pensons qu’il est largement atteignable. »
Toutefois, pour que Spark concrétise tout son potentiel, plusieurs domaines stratégiques doivent être améliorés. L’initiative « One Platform » va concentrer les efforts de la communauté sur quatre axes : la sécurité, la montée en charge, l’administration et le streaming.

Renforcer la sécurité de Spark
De nombreuses entreprises, particulièrement celles issues de secteurs très réglementés comme les finances, le secteur public ou la santé, sont confrontées à d’importantes exigences en termes de sécurité et de conformité au moment de déployer et d’utiliser de nouveaux outils comme Spark. En tant que fournisseur de la seule distribution du marché ayant obtenu la certification PCI, Cloudera s’intéresse depuis longtemps aux questions de sécurité. La sécurité de Spark a déjà été améliorée, notamment via l’intégration de Kerberos pour l’authentification et de HDFS Sync et Apache Sentry pour le contrôle d’accès basé sur les rôles. L’initiative « One Platform » s’attachera à garantir que Spark répond à l’ensemble des contraintes réglementaires et intègre parfaitement les fonctions de sécurité d’Hadoop. Les développements concerneront plus particulièrement la gouvernance, le chiffrement (avec l’intégration des bibliothèques de chiffrement avancé d’Intel) et les contrôles granulaires de sécurité.

Spark à l’échelle d’Hadoop
Pour succéder à MapReduce, Spark devra s’adapter au volume des jobs MapReduce en exploitation aujourd’hui qui impliquent souvent des petabytes de données à travers des milliers de nœuds, voire le dépasser. Cloudera supporte déjà les plus grands déploiements mondiaux de Spark, mais ceux-ci vont continuer de croître. L’initiative « One Platform » contribuera à garantir la capacité de Spark à prendre en charge des jobs à travers des dizaines de milliers de nœuds dans des clusters multi-tenant, ce qui nécessite des niveaux supérieurs de fiabilité, de stabilité et de performance.

Administrer Spark
Faciliter l’administration de Spark est essentiel pour accroître l’adoption des entreprises et supporter des applications stratégiques en production. Cloudera a mené cet effort en intégrant Spark avec Hadoop YARN pour la gestion des ressources partagées, en le connectant avec d’autres environnements Hadoop comme Impala et Apache Solr, et en ajoutant des indicateurs utiles pour les diagnostics. L’initiative « One Platform » continuera de faciliter l’administration de Spark à travers des configurations automatiques ; l’amélioration du caractère multi-tenant, des performances et de la facilité d’utilisation de Spark-on-YARN ; une visibilité accrue sur l’utilisation des ressources ; et un processus d’installation enrichi de PySpark pour un accès via Python.

Streaming
Les charges de travail en streaming figurent parmi celles le plus souvent gérées à l’aide de Spark, surtout avec la croissance exponentielle des données issues de l’Internet des objets et les besoins analytiques temps réel accrus des entreprises. Pour répondre aux besoins de production de ses clients, Cloudera s’est déjà attaché à garantir l’absence de perte de données avec Spark Streaming et a intégré les outils les plus populaires d’intégration de données : Kafka et Flume. Pour garantir dans le futur que Spark Streaming soit capable de supporter les traitements en streaming les plus communs, l’accent sera mis sur les performances et sur le fait de permettre à de nouveaux utilisateurs d’accéder aux fonctionnalités de streaming via des extensions de langage de plus haut niveau.

Autres articles

Cloudera lance une initiative pour unifier Apache Spark et Apache Hadoop

L’initiative « One Platform » vise à enrichir Spark et à favoriser la création d’une nouvelle génération d’applications analytiques

Cloudera accélère l'IA d'entreprise avec le programme RAG Studio Preview

La nouvelle plateforme Confluent pour Apache Flink facilite la gestion et la sécurisation du traitement de flux haute performance on-premises

Cloudera dévoile un nouvel assistant IA pour améliorer l'efficacité des spécialistes des données

Étude Cloudera : Près de 90 % des entreprises utilisent l'IA, mais n’en tirent pas pleinement parti du fait d'une infrastructure obsolète et de compétences insuffisantes

Cloudera s'associe à Snowflake et intègre la gestion des données hybrides basée sur Iceberg

Snowflake renforce la collaboration cross-cloud pour les données d'entreprise et l'intelligence artificielle - 21/11/2024

Snowflake unifie les données transactionnelles et analytiques avec la disponibilité générale des Hybrid Tables - 21/11/2024

Neo4j dépasse les 200 millions de dollars de chiffre d’affaires et accélère son leadership dans le domaine de la GenAI grâce à sa technologie de graphes - 20/11/2024

Starburst annonce une capacité d’ingestion de données en streaming de 100 Gb/seconde depuis Apache Kafka vers les tables Apache Iceberg - 06/11/2024

Se préparer à l’avenir des moteurs de recherche avec l’approche vectorielle - 22/10/2024