Dataiku démocratise encore l’accès à la Data Science avec avec la nouvelle version majeure de son Data Science Studio


Rédigé par Communiqué de Dataiku le 3 Juin 2014

La version 1.1 du Studio facilite la gestion de projets multiples, la collaboration,
améliore l’interface de Machine Learning, intègre le traitement des données non-structurées
et introduit de nouveaux connecteurs.



Dataiku, l’éditeur français spécialisé dans l’analyse de données en environnement Big data, annonce aujourd’hui la disponibilité d’une nouvelle version du Data Science Studio, la première plateforme spécifiquement conçue, pour démocratiser l’accessibilité de la Data Science, au plus grand nombre.
Le Data Science Studio 1.1 optimise l’expérience utilisateur, tant coté métier que pour les experts Data Scientist, et ajoute des fonctionnalités plébiscitées par les clients de l’éditeur.

Gestion de projets et collaboration
“Nos clients commençaient à traiter beaucoup de workflows et de jeux de données avec leur instance du studio. Au départ, nous avions prévus un système de tag, mais il s’est avéré qu’ils avaient besoin de plus d’organisation que cela, de vraiment cloisonner leurs projets”, avoue Florian Douetteau, président de Dataiku.

Les utilisateurs du studio peuvent désormais organiser leur travail en différents projets. Les base de données, les recettes de transformations, les modèles prédictifs, etc. peuvent être assemblés dans des compartiments séparés. Les administrateurs auront la possibilité de gérer finement l’accès à ces projets.
Afin de faciliter le travail des équipes, les outils de collaboration ont été significativement améliorés. Les commentaires, un système de notification et un pinboard font leur apparition. Il sera possible de mettre en avant des graphiques ou autres rapports à des utilisateurs business sans qu’ils n’aient besoin de les générer eux-mêmes.
Une toute nouvelle interface pour le Machine Learning
“La force du studio réside dans son adaptabilité à tous les niveaux d’utilisateurs. L’utilisation d’algorithme de Machine Learning dans une interface visuelle était déjà possible dans les versions précédentes, mais nous avons voulu aller encore plus loin. Les métiers doivent pouvoir créer leurs propres modèles de prédiction ou de clustering sans avoir besoin de coder” évoque Florian Douetteau.

L’interface visuelle qui permet de lancer les algorithmes de Machine Learning a été entièrement revue. Un grand nombre d’algorithmes avec des paramètres automatiquement prédéfinis sont disponibles pour tous (Logistic Regression, Random Forest, Support Vector Machine, Stochastic Gradient Descent par exemple). Il est possible de créer plusieurs modèles simultanément et de les comparer en quelques clics. L’analyse prédictive n’a jamais été aussi simple avec le Data Science Studio.
Traitement des textes et rapprochements automatiques
Dans le contexte du Big Data et de l’explosion de données non structurées, les entreprises ont le besoin d’analyser de plus en plus du texte. Afin de faciliter l’analyse sur des données textuelles, le Data Science Studio embarque maintenant des outils adaptés au sein d’une interface visuelle. En quelques clics, il est possible de simplifier les textes (réduction des mots à une forme grammaticale simple, suppressions des mots de liaison, etc.), d’extraire des groupes de mots (algorithmes ngrams) et de rapprocher des mots ou expressions proches.

Nouveaux connecteurs: Twitter et MongoDB
Le studio continue de s’équiper de nouveaux connecteurs afin de venir se greffer sur les principales bases de données du marché. La compatibilité avec MongoDB va permettre de tirer parti de cette puissante base NoSQL pour gérer par exemple une bibliothèque de documents.
De plus, le studio s’équipe de son premier connecteur social : Twitter. Il est possible d’importer des flux en provenance du réseau en sélectionnant des mots clés ou des hashtags. D’autres connecteurs sont prévus.



Dans la même rubrique :