100 To de données fouillés en 1 seconde avec Xedix

Nous sommes en 1996, la DAM (Direction des Applications Militaires) du CEA (Commissariat à l’Energie Atomique) doit appliquer la décision de Jacques CHIRAC, alors Président de la République. Après une dernière campagne les essais nucléaires cessent. Cette année 1996 met fin à 36 années d’essais conduits par le CEA. Et chacun de ces essais a généré de nombreuses données dont il est important pour le CEA de conserver le détail et de les garder disponibles pour les recherches et les analyses, au fur et à mesure des décennies. En 1996, c’est entre 1 et 2 teraoctets de données qui sont numérisées et constituent cet historique. Un volume dérisoire aujourd’hui mais rare pour l’époque. Ainsi nait le projet « Conservation et Exploitation des Connaissances ».
Caractéristique importante de ces données, leur caractère partiellement non structuré, il s’agit de documents, de résultats d’expériences, de films, de photos, etc. Le CEA cherche donc une base de données classique mais aussi de type documentaire. Et ne trouve aucune solution en 1996 pour gérer plus d’un téraoctet de données.
Le choix est finalement fait de créer un outil dédié à ce besoin, une base de données qui partira des documents pour en extraire les informations structurées et les rendre disponibles. Un choix un peu opposé aux solutions classiques qui tentent alors de stocker des documents dans une structure de base de données.

Du point de vue technique, le CEA maitrisait depuis plusieurs années SGML. Le choix s’oriente donc dans cette direction, puis s’appuie sur XML. XML permet de définir des classes de documents et d’encapsuler ces types hétérogènes ainsi que leurs métadonnées. Initialement c’est la base de données O2 et le moteur de recherche Verity qui sont utilisés. L’arrêt de la commercialisation de O2 conduit le CEA à développer sa propre solution. Est alors créé le concept de base de données XML native. La plateforme Xedix implémente le concept de NXD (Native XML Database) en associant :
- un filtre d’import qui valide les documents vis à vis de leur DTD déclarée
- un gestionnaire de base qui assure le stockage physique des éléments XML éclatés après leur parsing
- un moteur de recherche qui s’appuie sur la structure
- une interface web de consultation, une API HTTP et l’intégration de la sécurité d’accès au niveau de granularité le plus fin.

Pendant plus de dix ans, cette base de données, Xedix est développée, utilisée, améliorée en permanence par les équipes du CEA. En 2009 l’organisation se pose la question de son usage potentiel au-delà des limites du Secret Défense, et met en place une société éponyme afin de commercialiser Xedix auprès des entreprises.

Totalement indépendante du CEA du point de vue capitalistique, la société Xedix signe un contrat de licence qui lui permet de revendre la base aux entreprises. Une revente qui reste néanmoins sous l’oeil bienveillant du CEA qui surveille les usages futurs de cette base de données. Xedix décide alors de s’adresser à trois marchés : la sécurité / défense, la finance et la réalité augmentée. On retrouve d’ailleurs les marchés principaux des super-calculateurs comme les Cray et leurs descendants.
Point clef de Xedix, la performance des requêtes sur de très gros volumes. Et cette performance n’a fait que s’améliorer au fur et à mesure des années et des versions de Xedix.
En 2003, Xtera 1 parcourait en 5 secondes 1 To de données. En 2005, Xtera 10 n’a plus besoin que de 2 secondes pour fouiller dans 10 To de données. Et en 2007, ce sont 100 To de données qui sont fouillés en une seule seconde sur la machine Tera10 du CEA équipée de 812 processeurs. Ces expérimentations sont menées dans le cadre du pôle de compétitivité System@tic en collaboration avec Bull.

Penchons nous quelques instants sur ces 100 To de données parcourus en une seconde. Toute la clef est bien entendu dans l’indexation préalable des contenus. Ainsi le temps de réponse est indépendant de la taille de la base. Il ne dépend que du nombre de documents ressortis de la base. Xedix a mené son test sur l’archivage de dix ans de vidéo. A partir d’une image requête, comme un extrait d’une publicité par exemple, vous passez en revue des milliers d’heures de vidéo pour retrouver les diffusions de cette image, le tout en une seule seconde. Xedix doit encore améliorer la pertinence des résultats obtenus. Et plus la pertinence demandée est importante plus les traitements sont longs. C’est sur le réglage des curseurs de la performance et de la pertinence que Xedix et le CEA améliorent la solution.

Plus proche de nous, Xedix propose aujourd’hui plusieurs solutions aux entreprises. Auprès de certains grands comptes comme Renault dans le domaine de la simulation numérique, mais aussi aux financiers car Xedix a développé en partenariat avec Invoke une plateforme de gestion et de reporting des données XBRL permettant de répondre par exemple aux contraintes règlementaires du secteur financier. Un premier pas dans le décisionnel, mais Xedix pourrait aussi tester ses performances sur des infrastructures plus lourdes. Ainsi, marié à un moteur de recherche, Xedix pourrait investir le domaine des SBA (Search Based Applications) dont il se dit qu’elles pourraient remettre en cause à terme les infrastructures décisionnelles que nous connaissons. Des travaux seraient d’ailleurs en cours avec Exalead...
Autre axe de développement, la gestion de contenu d’entreprise.

Stéphane Couleaud, récemment nommé directeur des opérations de Xedix, a conscience de l’ampleur du marché qui se dessine. Mais il reste conscient des petits pas qu’il doit tout d’abord faire et ne pas être tenté de remettre trop fortement en cause les investissements précédents de ses futurs clients. Une prudence qui se traduit également lorsque l’on aborde l’aspect tarifaire. Basé sur un modèle d’abonnement annuel, Xedix propose à ses clients de « partager la valeur ajoutée ». Un flou derrière lequel on trouve des tarifs qui dépendront de la volumétrie traitée, et qui démarrent autour de 50 Keuros par an.

Autres articles

100 To de données fouillés en 1 seconde avec Xedix

Le CEA acquiert un supercalculateur BullSequana d’Atos équipé de processeurs Marvell ThunderX2 basés sur une architecture Arm

Le CEA s’équipe d’un simulateur Atos au CCRT pour explorer le potentiel de l’informatique quantique pour l’industrie

Atos et le CEA lancent une chaire industrielle sur l’informatique quantique, avec le soutien de l’ANR

Petite histoire des bases relationnelles et du langage SQL

Appel à communication du CEA : 2ème édition de la journée Visualisation scientifique et d'information

Snowflake renforce la collaboration cross-cloud pour les données d'entreprise et l'intelligence artificielle - 21/11/2024

Snowflake unifie les données transactionnelles et analytiques avec la disponibilité générale des Hybrid Tables - 21/11/2024

Neo4j dépasse les 200 millions de dollars de chiffre d’affaires et accélère son leadership dans le domaine de la GenAI grâce à sa technologie de graphes - 20/11/2024

Starburst annonce une capacité d’ingestion de données en streaming de 100 Gb/seconde depuis Apache Kafka vers les tables Apache Iceberg - 06/11/2024

Se préparer à l’avenir des moteurs de recherche avec l’approche vectorielle - 22/10/2024