ActiveViam propose de construire des solutions analytiques à la volée : questions à Antoine Chambille, directeur Recherche et Développement


Rédigé par le 23 Mars 2020

ActiveViam a développé une architecture qui permet aux clients de créer à la volée, en quelques secondes, de nouveaux cubes complets d'analyse contenant les données utiles et de les éteindre quand ils ne sont plus utilisés, et ainsi de tirer pleinement partie de l'élasticité du cloud, en mémoire vive.
L'analyse de données "in memory" n'est cependant pas nouvelle. Nous avons voulu en savoir plus...



Antoine Chambille, Directeur Recherche et Développement chez ActiveViam
Decideo : Vous proposez une base de données analytique en mémoire. C'est un choix technologique déjà bien connu sur le marché, avec des outils comme IBM Cognos TM1 ou Qlik. Quels sont les points différenciateurs de votre solution?

Antoine Chambille : La technologie ActiveViam s'inscrit en effet dans la lignée des bases de données analytiques en mémoire, dont elle reprend les fondamentaux : column store en mémoire, compression par dictionnarisations, calculs massivement parallèles. En développement depuis 15 ans dans l'équipe R&D, la technologie ActiveViam se montre toutefois considérablement plus performante que les générations précédentes, permettant la prise de décision en temps réel sur des jeux de données beaucoup plus détaillés et volumineux.

Parmi les capacités uniques des solutions ActiveViam il y a notamment :
- Un modèle multidimensionnel qui offre une navigation intuitive aux utilisateurs métier, des hiérarchies pour représenter les organisations, des facilités pour comparer différentes périodes de temps ou différentes simulations.
- Une API puissante mais très concise qui permet de programmer des agrégations en Python ou en Java, et ainsi de calculer à la volée les KPIs que les utilisateurs métier attendent, les simples sommes comme les indices sophistiqués.
- Un puissant moteur MVCC (MultiVersion Concurrency Control) qui permet de mettre à jour les données en même temps que les utilisateurs font leurs analyses. Ce design sans équivalent dans les autres bases de données analytiques permet aux utilisateurs de toujours analyser les données les plus fraîches, mais aussi de faire des ajustements dont ils visualisent immédiatement l'impact, de faire des analyses what-if, de générer de nombreux scenarios à la volée puis de les comparer.
- L’usage des infrastructures cloud pour monter en mémoire les données à la volée, seulement pendant que les utilisateurs en ont besoin. C'est un progrès immense par rapport aux bases de données en mémoire classiques qui chargent à l'avance toutes les données dans la mémoire de serveurs dédiés qui restent allumés en permanence. Cette gestion dynamique des ressources réduit entre 4x et 10x les coûts d'infrastructure associés à l'analyse en mémoire.

Decideo : Vous avez choisi de vous spécialiser dans deux secteurs d'activité : la finance et la distribution. Ce choix est-il lié à des opportunités de marché, ou votre solution technologique est-elle mieux adaptée à ces deux secteurs ? Et pourquoi ?

Antoine Chambille : Notre technologie a d’abord été pensée pour répondre à des besoins spécifiques au secteur de la finance : la gestion des grands volumes de données, la mise à jour en continu des flux de données, les calculs complexes de risque à réaliser en temps réel, et enfin, le besoin d’avoir une plateforme collaborative commune au front office, au middle office et au back office. Au cours des années, nous avons pu observer que les besoins de la finance étaient en avance sur les autres secteurs.

Puis nous avons adapté notre technologie au secteur de la distribution lorsqu’il a été confronté, sous la pression notamment d’Amazon et des discounters, à la transformation du calcul des prix. En effet, ce calcul est devenu à la fois plus fin et plus fréquent. Les volumes de données à traiter ont alors augmenté de façon exponentielle, tandis que le pilotage des opérations exigeait d’être beaucoup plus réactif et de procéder plus vite aux analyses. Ensuite les distributeurs ont cherché à anticiper l’impact de ces décisions de pricing sur les autres aspects des opérations comme les achats, l’image de marque et la gestion des catégories. Ce besoin d’anticipation a nécessité de développer un environnement collaboratif mettant en commun toutes les données pertinentes pour tous les utilisateurs concernés.

Decideo : Vous avez développé des solutions analytiques packagées pour chacun de ces deux domaines (finance et retail). D'autres fournisseurs pensent que les besoins analytiques sont génériques entre tous les secteurs d'activité. Pourquoi vos clients choisissent-ils de travailler avec vous ?

Antoine Chambille : Cela dépend des cas d’usage au sein même d’une industrie. Notre expérience nous fait penser qu’il est essentiel d’adapter les outils analytiques aux métiers lorsqu’il s’agit du volet opérationnel, pour que la technologie soit construite en fonction des besoins spécifiques.

Dans la finance par exemple, on doit gérer des sources de données très variées et un grand nombre de niveaux d’agrégations sont nécessaires pour l’analyse des risques. Sans une technologie spécialisée, le système ne peut répondre aux besoins de performance des utilisateurs. Les instances de régulation financières demandent de plus en plus de simulations monte-carlo, ce qui représente des téraoctets de données à agréger en temps réel – par exemple pour calculer la "value at risk". Produire ces données en intraday est un challenge que les technologies classiques ne peuvent simplement relever – sans même parler de le faire en temps réel. Avec nos solutions dédiées, nous en sommes capables.

Le cas du retail est similaire, avec des indicateurs uniques, parfois spécifiques à chaque enseigne, qui représentent des calculs d’agrégation extrêmement exigeants, comme la gestion des indices-prix, ou le scoring de la similarité entre des produits concurrents. Lorsqu’on optimise les prix, magasin par magasin, sur des milliers de points de vente, cela représente des milliards de points de données à traiter. Les solutions génériques ne peuvent tout simplement pas délivrer le niveau de performance nécessaire aux utilisateurs métiers. Elles mettent plusieurs heures à calculer les impacts d’un seul scénario prix, là où cela nous prend quelques secondes. Les décideurs ont absolument besoin d’un environnement interactif et réactif pour rester compétitifs.

Aujourd’hui, toutes les entreprises deviennent de plus en plus « data-driven » et se trouvent confrontées à des besoins similaires d’analyser des volumes de données de plus en plus importants et dans des horizons de temps proches. Nous nous efforçons d’y répondre avec de nouveaux outils dédiés aux data scientists de toutes les industries, conçus pour faciliter l’analyse des données brutes et le développement de tableaux de bord opérationnels qui, eux, seront spécifiques aux besoins de chaque entreprise. Ces outils sont conçus sur les trois mêmes piliers que nos autres produits : la gestion de grands volumes de données, la rapidité d’exécution des calculs, et la collaboration.

Decideo : Vous proposez une solution logicielle, mais également du service. Quelle est la répartition moyenne d'un projet entre les deux sources de revenu ? Et quelle est la part que vous conservez, par rapport à celle réalisée par vos partenaires ?

Antoine Chambille : L’essentiel de nos revenus pour tous les projets vient des licences de nos logiciels. C’est très variable pour chaque projet, en fonction du degré de personnalisation de la solution, entre des ventes technologiques « pures », des ventes d’applications très personnalisées distribuées en SaaS et tout le spectre entre les deux.

Decideo : Quel est le coût moyen d'un projet ActiveViam pour le client ?

Antoine Chambille : Il n’est pas vraiment possible de définir un coût moyen. Cela dépend du périmètre du projet au niveau métier, des volumes de données à traiter, de la diversité des sources de données à intégrer, et de l’intensité des calculs (qui par exemple peut varier en fonction du cas d’usage, mais aussi du nombre d’utilisateurs simultanés de la plateforme).

Decideo : Quels sont aujourd'hui les principaux défis que vous constatez chez vos clients dans la mise en oeuvre d'une stratégie "data driven" ?

Antoine Chambille : Aujourd’hui je pense qu’il y a trois principaux défis.

Le premier, c’est de pouvoir tout simplement disposer de données exploitables. Dans beaucoup d’entreprises, les analystes passent plus de temps à « nettoyer » les données, à les extraire, les assembler, les formater et les trier qu’à les analyser à proprement parler. Ici le nœud du problème vient souvent de systèmes de stockage des données anciens, et qui ne sont pas optimisés pour permettre l’extraction et la mise à disposition des données.

Le second, c’est de faire le lien entre l’analyse de la donnée et la prise de décision opérationnelle. L’analyse des données est aujourd’hui une discipline spécialisée au sein des entreprises avec des postes ou des services dédiés à la data science, qui produisent en continu de la connaissance sur le marché, sur l’activité, et sur les clients. Mais il y a encore aujourd’hui, dans beaucoup d’entreprises, une différence entre le développement de cette connaissance et sa traduction en règles métier systématiques. Ce qui impacte la prise de décision et le pilotage des opérations au quotidien. Aujourd’hui il y a un besoin très fort d’outils collaboratifs permettant de faire le lien entre l’activité des data scientists et celle des managers business.

Le troisième c’est le coût. Une organisation « data-driven » demande souvent une transformation des process, avec des outils logiciels adaptés non seulement à l’analyse accélérée de grands volumes de données mais aussi à la collaboration entre ceux qui produisent la connaissance et ceux qui la consomment dans leurs décisions.

Ces logiciels consomment eux-mêmes des ressources hardware importantes et souvent couteuses. De plus en plus d’entreprises se tournent vers les Cloud pour maitriser leur budget IT, mais pour réaliser des économies significatives il faut avoir des applications capables d’exploiter les avantages de ces environnements, c’est-à-dire pouvoir démarrer et s’éteindre à la demande, adapter en temps réel la consommation de ressources aux besoins et utiliser au maximum les capacités de technologies cloud comme l’object storage.



Dans la même rubrique :