Data Science Studio (DSS) de Dataiku passe à la vitesse supérieure avec l'intégration de Spark

Développé initialement au sein de programmes conjoints des universités de Berkeley et de Stanford, Spark s'est imposé dans les derniers mois comme le système de référence pour le calcul distribué (en compétition avec le "MapReduce" de Hadoop)

Cette intégration est un des ajouts majeurs de cette nouvelle version du logiciel. Elle s’inscrit dans la continuité de la stratégie de démocratisation et d'accélération des projets Big Data de Dataiku, et illustre la propension de DSS à intégrer les dernières technologies Big Data, toujours plus productives et génératrices de valeur.

Les principaux domaines d'intervention de Spark dans DSS 2.1
En intégrant Spark, Dataiku met à disposition de ses utilisateurs un framework innovant dédié aux hautes performances et à la rapidité. Il permet notamment de simplifier le croisement et le contrôle des données à une vitesse et à une échelle inégalée.

La technologie Spark intervient notamment dans le cadre de :

La préparation des données (nettoyage, agrégation, enrichissement, etc.)
Dans le cadre des recettes visuelles, le moteur Spark et Spark SQL permettent de faire des jointures et des agrégations beaucoup plus rapidement qu'avec un moteur Hadoop traditionnel.
La programmation distribuée facilitée
Intégré au sein de DSS, PySpark et SparkR exposent le modèle de programmation de Spark à Python et R, permettant donc aux utilisateurs de Python ou R de faire des transformations sur des volumes de données beaucoup plus importants en environnement Spark.
L'apprentissage automatique qui passe à l'échelle
Il est désormais possible d'entraîner des modèles via Spark MLlib. Les utilisateurs de DSS 2.1 peuvent choisir MLlib ou Scikit Learn pour passer à l'échelle (plusieurs dizaine de milliards de ligne) et utiliser toute la puissance de leur infrastructure pour exécuter des modèles sur l'ensemble de leurs données.
Les principaux bénéfices de cette intégration
Cette association technologique dynamise la productivité des organisations et renforce la collaboration inter-métiers grâce notamment à :

La capacité à traiter des volumes beaucoup plus importants
Enjeu majeur pour la productivité des data scientists, Spark permet des analyses interactives mettant en oeuvre des algorithmes avancés sur plusieurs centaines de gigaoctets de données (contre quelques gigaoctets pour stacks R ou Python).
Une collaboration renforcée
Les frameworks technologiques comme PySpark ou SparkR permettent de mutualiser les ressources du cluster avec l'ensemble des membres d'une équipe, permettant ainsi d'aller plus loin en terme de collaboration simultanée.
Une prise en main facilitée
Dans un contexte d'évolution permanente des technologies, des frameworks, des langages et dialectes (Py, R, Pig, Hive, SQL, Spark...), DSS 2.1 fournit une interface unifiée entre ces différents frameworks permettant aux utilisateurs de se familiariser avec ces technologies à leur rythme.
Florian Douetteau, CEO de Dataiku commente : "Dataiku a toujours eu pour ambition de proposer une plateforme s'appuyant sur les dernières innovations technologiques. Il était donc essentiel pour nous d'intégrer Spark à Data Science Studio."
Il ajoute : "Spark est une technologie ouverte dont la communauté ne cesse de s'élargir et avec elle, le nombre de ses contributeurs et de ses innovations. Nous avons la certitude qu'avec Spark de nouveaux standards émergeront. Il est donc fondamental d'y associer notre technologie dès aujourd'hui !"

Autres articles

Data Science Studio (DSS) de Dataiku passe à la vitesse supérieure avec l'intégration de Spark

Dataiku, l'éditeur du Data Science Studio (DSS), le logiciel d’accélération de projets Big Data, annonce aujourd'hui l'intégration du moteur de traitement Apache Spark à la nouvelle version 2.1 de son logiciel phare, DSS.

Apache Kafka : 15 ans pour réconcilier la technique et le métier

Dataiku franchit le cap des 350 millions de dollars de revenus récurrents annuels, portée par l’adoption croissante d’une IA gouvernée et responsable dans les entreprises

Starburst étend les data products Iceberg aux environnements on-premises et hybrides

Snowflake lance Snowpark Connect pour Apache Spark

Starburst devient compatible avec Confluent Tableflow pour simplifier l'intégration des données Kafka vers Iceberg

Selon une étude de Finextra et Cloudera, 91 % des institutions financières considèrent l’IA hybride comme fortement créatrice de valeur, en faisant la nouvelle norme du secteur - 12/11/2025

Informatica collabore avec Emirates Flight Catering pour mettre en place un service de restauration plus intelligent et axé sur les données - 12/11/2025

Celonis s'associe à Databricks pour optimiser une IA d'entreprise qui améliore en continu les opérations - 12/11/2025

Snowflake annonce de nouvelles innovations pour accélérer le développement d’applications d’IA agentique de niveau entreprise - 12/11/2025

Qualtrics fait évoluer sa gouvernance d’IA pour soutenir l'innovation sur mesure et les retours clients - 12/11/2025