Développé initialement au sein de programmes conjoints des universités de Berkeley et de Stanford, Spark s'est imposé dans les derniers mois comme le système de référence pour le calcul distribué (en compétition avec le "MapReduce" de Hadoop)
Cette intégration est un des ajouts majeurs de cette nouvelle version du logiciel. Elle s’inscrit dans la continuité de la stratégie de démocratisation et d'accélération des projets Big Data de Dataiku, et illustre la propension de DSS à intégrer les dernières technologies Big Data, toujours plus productives et génératrices de valeur.
Les principaux domaines d'intervention de Spark dans DSS 2.1
En intégrant Spark, Dataiku met à disposition de ses utilisateurs un framework innovant dédié aux hautes performances et à la rapidité. Il permet notamment de simplifier le croisement et le contrôle des données à une vitesse et à une échelle inégalée.
La technologie Spark intervient notamment dans le cadre de :
La préparation des données (nettoyage, agrégation, enrichissement, etc.)
Dans le cadre des recettes visuelles, le moteur Spark et Spark SQL permettent de faire des jointures et des agrégations beaucoup plus rapidement qu'avec un moteur Hadoop traditionnel.
La programmation distribuée facilitée
Intégré au sein de DSS, PySpark et SparkR exposent le modèle de programmation de Spark à Python et R, permettant donc aux utilisateurs de Python ou R de faire des transformations sur des volumes de données beaucoup plus importants en environnement Spark.
L'apprentissage automatique qui passe à l'échelle
Il est désormais possible d'entraîner des modèles via Spark MLlib. Les utilisateurs de DSS 2.1 peuvent choisir MLlib ou Scikit Learn pour passer à l'échelle (plusieurs dizaine de milliards de ligne) et utiliser toute la puissance de leur infrastructure pour exécuter des modèles sur l'ensemble de leurs données.
Les principaux bénéfices de cette intégration
Cette association technologique dynamise la productivité des organisations et renforce la collaboration inter-métiers grâce notamment à :
La capacité à traiter des volumes beaucoup plus importants
Enjeu majeur pour la productivité des data scientists, Spark permet des analyses interactives mettant en oeuvre des algorithmes avancés sur plusieurs centaines de gigaoctets de données (contre quelques gigaoctets pour stacks R ou Python).
Une collaboration renforcée
Les frameworks technologiques comme PySpark ou SparkR permettent de mutualiser les ressources du cluster avec l'ensemble des membres d'une équipe, permettant ainsi d'aller plus loin en terme de collaboration simultanée.
Une prise en main facilitée
Dans un contexte d'évolution permanente des technologies, des frameworks, des langages et dialectes (Py, R, Pig, Hive, SQL, Spark...), DSS 2.1 fournit une interface unifiée entre ces différents frameworks permettant aux utilisateurs de se familiariser avec ces technologies à leur rythme.
Florian Douetteau, CEO de Dataiku commente : "Dataiku a toujours eu pour ambition de proposer une plateforme s'appuyant sur les dernières innovations technologiques. Il était donc essentiel pour nous d'intégrer Spark à Data Science Studio."
Il ajoute : "Spark est une technologie ouverte dont la communauté ne cesse de s'élargir et avec elle, le nombre de ses contributeurs et de ses innovations. Nous avons la certitude qu'avec Spark de nouveaux standards émergeront. Il est donc fondamental d'y associer notre technologie dès aujourd'hui !"
Cette intégration est un des ajouts majeurs de cette nouvelle version du logiciel. Elle s’inscrit dans la continuité de la stratégie de démocratisation et d'accélération des projets Big Data de Dataiku, et illustre la propension de DSS à intégrer les dernières technologies Big Data, toujours plus productives et génératrices de valeur.
Les principaux domaines d'intervention de Spark dans DSS 2.1
En intégrant Spark, Dataiku met à disposition de ses utilisateurs un framework innovant dédié aux hautes performances et à la rapidité. Il permet notamment de simplifier le croisement et le contrôle des données à une vitesse et à une échelle inégalée.
La technologie Spark intervient notamment dans le cadre de :
La préparation des données (nettoyage, agrégation, enrichissement, etc.)
Dans le cadre des recettes visuelles, le moteur Spark et Spark SQL permettent de faire des jointures et des agrégations beaucoup plus rapidement qu'avec un moteur Hadoop traditionnel.
La programmation distribuée facilitée
Intégré au sein de DSS, PySpark et SparkR exposent le modèle de programmation de Spark à Python et R, permettant donc aux utilisateurs de Python ou R de faire des transformations sur des volumes de données beaucoup plus importants en environnement Spark.
L'apprentissage automatique qui passe à l'échelle
Il est désormais possible d'entraîner des modèles via Spark MLlib. Les utilisateurs de DSS 2.1 peuvent choisir MLlib ou Scikit Learn pour passer à l'échelle (plusieurs dizaine de milliards de ligne) et utiliser toute la puissance de leur infrastructure pour exécuter des modèles sur l'ensemble de leurs données.
Les principaux bénéfices de cette intégration
Cette association technologique dynamise la productivité des organisations et renforce la collaboration inter-métiers grâce notamment à :
La capacité à traiter des volumes beaucoup plus importants
Enjeu majeur pour la productivité des data scientists, Spark permet des analyses interactives mettant en oeuvre des algorithmes avancés sur plusieurs centaines de gigaoctets de données (contre quelques gigaoctets pour stacks R ou Python).
Une collaboration renforcée
Les frameworks technologiques comme PySpark ou SparkR permettent de mutualiser les ressources du cluster avec l'ensemble des membres d'une équipe, permettant ainsi d'aller plus loin en terme de collaboration simultanée.
Une prise en main facilitée
Dans un contexte d'évolution permanente des technologies, des frameworks, des langages et dialectes (Py, R, Pig, Hive, SQL, Spark...), DSS 2.1 fournit une interface unifiée entre ces différents frameworks permettant aux utilisateurs de se familiariser avec ces technologies à leur rythme.
Florian Douetteau, CEO de Dataiku commente : "Dataiku a toujours eu pour ambition de proposer une plateforme s'appuyant sur les dernières innovations technologiques. Il était donc essentiel pour nous d'intégrer Spark à Data Science Studio."
Il ajoute : "Spark est une technologie ouverte dont la communauté ne cesse de s'élargir et avec elle, le nombre de ses contributeurs et de ses innovations. Nous avons la certitude qu'avec Spark de nouveaux standards émergeront. Il est donc fondamental d'y associer notre technologie dès aujourd'hui !"
Autres articles
-
La nouvelle plateforme Confluent pour Apache Flink facilite la gestion et la sécurisation du traitement de flux haute performance on-premises
-
Starburst intègre le support du catalogue Polaris pour Apache Iceberg
-
Databricks annonce l'acquisition de Tabular, la société fondée par les créateurs d'Apache Iceberg
-
Snowflake lance Polaris Catalog et souligne son engagement en faveur de l'interopérabilité
-
Dremio Cloud, solution de Data Lakehouse permettant d’accéder et de diffuser les données en self-service, est désormais disponible sur Microsoft Azure