Dataiku… vous avez certainement entendu ce nom japonisant quelque part, mais la plupart d’entre vous serait bien incapable de décrire leur offre logicielle. Eux-mêmes se décrivent par analogie, les graphistes ont Adobe Photoshop, les marketeurs en ligne ont Google Analytics, et les analystes de données auraient donc besoin d’une plateforme aussi globale, Dataiku Data Science Studio (DSS).
L’offre logicielle de Dataiku est pour l’instant donc concentrée autour d’un seul produit, Data Science Studio, qui évolue au rythme d’une version par trimestre. Une plateforme qui doit donc intégrer l’ensemble des outils utilisés par les scientifiques des données en analyse statistique et en apprentissage machine (machine learning) : en terme de langages c’était déjà le cas avec Python et R; et la dernière version intègre Scala. Elle intègre également de nouvelles librairies comme H2O Sparkling Water, HPE Vertica. Pour Florian Douetteau, co-fondateur de l’entreprise, l’objectif de Dataiku est d’être neutre par rapport aux technologies utilisées par les clients, et donc de leur fournir la plateforme permettant d’intégrer les travaux réalisés dans les outils de leur choix. Ainsi l’intégration de Google Tensor Flow, une librairie open source pour l’apprentissage machine, devrait être réalisée dans la prochaine version. D’un point de vue général, Florian Douetteau considère d’ailleurs que l’open source est toujours très proche de l’état de l’art. Pas au point tout de même, de mettre Dataiku DSS en open source lui-même… il existe bien une version communautaire et gratuite de DSS, mais son code n’est pas du tout ouvert.
L’offre logicielle de Dataiku est pour l’instant donc concentrée autour d’un seul produit, Data Science Studio, qui évolue au rythme d’une version par trimestre. Une plateforme qui doit donc intégrer l’ensemble des outils utilisés par les scientifiques des données en analyse statistique et en apprentissage machine (machine learning) : en terme de langages c’était déjà le cas avec Python et R; et la dernière version intègre Scala. Elle intègre également de nouvelles librairies comme H2O Sparkling Water, HPE Vertica. Pour Florian Douetteau, co-fondateur de l’entreprise, l’objectif de Dataiku est d’être neutre par rapport aux technologies utilisées par les clients, et donc de leur fournir la plateforme permettant d’intégrer les travaux réalisés dans les outils de leur choix. Ainsi l’intégration de Google Tensor Flow, une librairie open source pour l’apprentissage machine, devrait être réalisée dans la prochaine version. D’un point de vue général, Florian Douetteau considère d’ailleurs que l’open source est toujours très proche de l’état de l’art. Pas au point tout de même, de mettre Dataiku DSS en open source lui-même… il existe bien une version communautaire et gratuite de DSS, mais son code n’est pas du tout ouvert.
Un outil pour les équipes de scientifiques de données
Florian Douetteau, co-fondateur de Dataiku
Cette version communautaire est plus un outil de promotion. En effet, DSS trouve tout son intérêt dans la gestion de groupes de travail de data scientists, qui vont ainsi partager des jeux de données, des méthodes d’analyse, des algorithmes développés. L’outil présente moins d’intérêt pour un seul analyste de données. Dataiku a donc choisi de rendre gratuite l’utilisation par une seule personne. Dans l’espoir bien entendu, qu’elle perçoive la valeur ajoutée apportée par une utilisation en équipe et franchisse ensuite le pas.
Attention, précise Florian Douetteau, il ne s’agit pas forcément d’une équipe de plusieurs data scientists, conscient que les entreprises capables de s’offrir les services d’une telle équipe sont bien rares. Mais il peut s’agir d’encadrer le travail d’un data scientist et d’une équipe de trois ou quatre analystes qui travaillent les données.
D’un point de vue technologie, Dataiku a fait un choix, celui de développer son outil uniquement sous Unix. DSS est donc disponible soit sur plateforme Linux, soit sur Mac (dont le système d’exploitation est dérivé de Unix). Bien sur, il s’agit du logiciel collaboratif central, et les “clients” membres de l’équipe peuvent se connecter par un navigateur à partir d’un poste Windows. Un choix que justifie Florian Douetteau par les choix des scientifiques des données, naturellement habitués au monde Linux.
Attention, précise Florian Douetteau, il ne s’agit pas forcément d’une équipe de plusieurs data scientists, conscient que les entreprises capables de s’offrir les services d’une telle équipe sont bien rares. Mais il peut s’agir d’encadrer le travail d’un data scientist et d’une équipe de trois ou quatre analystes qui travaillent les données.
D’un point de vue technologie, Dataiku a fait un choix, celui de développer son outil uniquement sous Unix. DSS est donc disponible soit sur plateforme Linux, soit sur Mac (dont le système d’exploitation est dérivé de Unix). Bien sur, il s’agit du logiciel collaboratif central, et les “clients” membres de l’équipe peuvent se connecter par un navigateur à partir d’un poste Windows. Un choix que justifie Florian Douetteau par les choix des scientifiques des données, naturellement habitués au monde Linux.
Une concurrence limitée, mais qui présente aussi des atouts
Dataiku n’est pas seul sur son secteur, mais les concurrents sont peu nombreux. Et cette situation ouvre à la jeune société française de belles perspectives de rachat, si elle démontre sa capacité à convaincre de nombreux clients payants, et cela au-delà des frontières de l’hexagone. Parmi les concurrents, sont le plus souvent cités Alteryx, mais surtout RapidMiner.
RapidMiner a choisi la voie de l’open source, affiche des tarifs clairs et progressifs, de 2 500 à 10 000$ par an, pour une version illimitée. Dans son approche tarifaire, Dataiku reste très français; impossible de trouver une liste de prix transparente sur le site web de l’éditeur; on parle de 70 000$ pour la version entreprise, mais Florian Douetteau, sans nous donner une réponse directe, parle d’une version “start-up” qui serait plus accessible… Pour jouer dans la cour des grands, Dataiku doit adopter les codes et les méthodes du marché.
Mais un autre concurrent pourrait venir du monde Windows, au travers de Microsoft en personne. Microsoft a en effet racheté début 2015 la société Revolution Analytics, et détient maintenant des solutions et une source de revenu autour de l’environnement statistique R. Dataiku est bien partenaire de Microsoft Azure actuellement, mais ne deviendront-ils pas demain plutôt concurrents ?
Du point de vue fonctionnel, DSS s’attache actuellement à suivre et tracer l’évolution des modèles utilisés au sein d’une équipe, ainsi que les flux de transformation de données. Mais d’autres besoins apparaissent maintenant chez les clients. Les algorithmes développés par une équipe de science des données prennent de plus en plus de valeur. Une valeur immatérielle, qui nécessite d’être comptabilisée et suivie, évaluée pour sa valeur et les résultats qu’elle apporte. Le portefeuille des méthodes et des algorithmes d’une entreprise orientée données, représente une valeur importante. Une telle plateforme devrait dans le futur, servir de référentiel et d’outil de valorisation du portefeuille algorithmique d’une entreprise qui place la science des données comme outil principal de croissance.
RapidMiner a choisi la voie de l’open source, affiche des tarifs clairs et progressifs, de 2 500 à 10 000$ par an, pour une version illimitée. Dans son approche tarifaire, Dataiku reste très français; impossible de trouver une liste de prix transparente sur le site web de l’éditeur; on parle de 70 000$ pour la version entreprise, mais Florian Douetteau, sans nous donner une réponse directe, parle d’une version “start-up” qui serait plus accessible… Pour jouer dans la cour des grands, Dataiku doit adopter les codes et les méthodes du marché.
Mais un autre concurrent pourrait venir du monde Windows, au travers de Microsoft en personne. Microsoft a en effet racheté début 2015 la société Revolution Analytics, et détient maintenant des solutions et une source de revenu autour de l’environnement statistique R. Dataiku est bien partenaire de Microsoft Azure actuellement, mais ne deviendront-ils pas demain plutôt concurrents ?
Du point de vue fonctionnel, DSS s’attache actuellement à suivre et tracer l’évolution des modèles utilisés au sein d’une équipe, ainsi que les flux de transformation de données. Mais d’autres besoins apparaissent maintenant chez les clients. Les algorithmes développés par une équipe de science des données prennent de plus en plus de valeur. Une valeur immatérielle, qui nécessite d’être comptabilisée et suivie, évaluée pour sa valeur et les résultats qu’elle apporte. Le portefeuille des méthodes et des algorithmes d’une entreprise orientée données, représente une valeur importante. Une telle plateforme devrait dans le futur, servir de référentiel et d’outil de valorisation du portefeuille algorithmique d’une entreprise qui place la science des données comme outil principal de croissance.