Actualités : analyse de données, Business Intelligence, Data Science, Big Data


100 To de données fouillés en 1 seconde avec Xedix


Rédigé par par Philippe NIEUWBOURG le 4 Juin 2010



100 To de données fouillés en 1 seconde avec Xedix
Nous sommes en 1996, la DAM (Direction des Applications Militaires) du CEA (Commissariat à l’Energie Atomique) doit appliquer la décision de Jacques CHIRAC, alors Président de la République. Après une dernière campagne les essais nucléaires cessent. Cette année 1996 met fin à 36 années d’essais conduits par le CEA. Et chacun de ces essais a généré de nombreuses données dont il est important pour le CEA de conserver le détail et de les garder disponibles pour les recherches et les analyses, au fur et à mesure des décennies. En 1996, c’est entre 1 et 2 teraoctets de données qui sont numérisées et constituent cet historique. Un volume dérisoire aujourd’hui mais rare pour l’époque. Ainsi nait le projet « Conservation et Exploitation des Connaissances ».
Caractéristique importante de ces données, leur caractère partiellement non structuré, il s’agit de documents, de résultats d’expériences, de films, de photos, etc. Le CEA cherche donc une base de données classique mais aussi de type documentaire. Et ne trouve aucune solution en 1996 pour gérer plus d’un téraoctet de données.
Le choix est finalement fait de créer un outil dédié à ce besoin, une base de données qui partira des documents pour en extraire les informations structurées et les rendre disponibles. Un choix un peu opposé aux solutions classiques qui tentent alors de stocker des documents dans une structure de base de données.

Du point de vue technique, le CEA maitrisait depuis plusieurs années SGML. Le choix s’oriente donc dans cette direction, puis s’appuie sur XML. XML permet de définir des classes de documents et d’encapsuler ces types hétérogènes ainsi que leurs métadonnées. Initialement c’est la base de données O2 et le moteur de recherche Verity qui sont utilisés. L’arrêt de la commercialisation de O2 conduit le CEA à développer sa propre solution. Est alors créé le concept de base de données XML native. La plateforme Xedix implémente le concept de NXD (Native XML Database) en associant :
- un filtre d’import qui valide les documents vis à vis de leur DTD déclarée
- un gestionnaire de base qui assure le stockage physique des éléments XML éclatés après leur parsing
- un moteur de recherche qui s’appuie sur la structure
- une interface web de consultation, une API HTTP et l’intégration de la sécurité d’accès au niveau de granularité le plus fin.

Pendant plus de dix ans, cette base de données, Xedix est développée, utilisée, améliorée en permanence par les équipes du CEA. En 2009 l’organisation se pose la question de son usage potentiel au-delà des limites du Secret Défense, et met en place une société éponyme afin de commercialiser Xedix auprès des entreprises.

Totalement indépendante du CEA du point de vue capitalistique, la société Xedix signe un contrat de licence qui lui permet de revendre la base aux entreprises. Une revente qui reste néanmoins sous l’oeil bienveillant du CEA qui surveille les usages futurs de cette base de données. Xedix décide alors de s’adresser à trois marchés : la sécurité / défense, la finance et la réalité augmentée. On retrouve d’ailleurs les marchés principaux des super-calculateurs comme les Cray et leurs descendants.
Point clef de Xedix, la performance des requêtes sur de très gros volumes. Et cette performance n’a fait que s’améliorer au fur et à mesure des années et des versions de Xedix.
En 2003, Xtera 1 parcourait en 5 secondes 1 To de données. En 2005, Xtera 10 n’a plus besoin que de 2 secondes pour fouiller dans 10 To de données. Et en 2007, ce sont 100 To de données qui sont fouillés en une seule seconde sur la machine Tera10 du CEA équipée de 812 processeurs. Ces expérimentations sont menées dans le cadre du pôle de compétitivité System@tic en collaboration avec Bull.

Penchons nous quelques instants sur ces 100 To de données parcourus en une seconde. Toute la clef est bien entendu dans l’indexation préalable des contenus. Ainsi le temps de réponse est indépendant de la taille de la base. Il ne dépend que du nombre de documents ressortis de la base. Xedix a mené son test sur l’archivage de dix ans de vidéo. A partir d’une image requête, comme un extrait d’une publicité par exemple, vous passez en revue des milliers d’heures de vidéo pour retrouver les diffusions de cette image, le tout en une seule seconde. Xedix doit encore améliorer la pertinence des résultats obtenus. Et plus la pertinence demandée est importante plus les traitements sont longs. C’est sur le réglage des curseurs de la performance et de la pertinence que Xedix et le CEA améliorent la solution.

Plus proche de nous, Xedix propose aujourd’hui plusieurs solutions aux entreprises. Auprès de certains grands comptes comme Renault dans le domaine de la simulation numérique, mais aussi aux financiers car Xedix a développé en partenariat avec Invoke une plateforme de gestion et de reporting des données XBRL permettant de répondre par exemple aux contraintes règlementaires du secteur financier. Un premier pas dans le décisionnel, mais Xedix pourrait aussi tester ses performances sur des infrastructures plus lourdes. Ainsi, marié à un moteur de recherche, Xedix pourrait investir le domaine des SBA (Search Based Applications) dont il se dit qu’elles pourraient remettre en cause à terme les infrastructures décisionnelles que nous connaissons. Des travaux seraient d’ailleurs en cours avec Exalead...
Autre axe de développement, la gestion de contenu d’entreprise.

Stéphane Couleaud, récemment nommé directeur des opérations de Xedix, a conscience de l’ampleur du marché qui se dessine. Mais il reste conscient des petits pas qu’il doit tout d’abord faire et ne pas être tenté de remettre trop fortement en cause les investissements précédents de ses futurs clients. Une prudence qui se traduit également lorsque l’on aborde l’aspect tarifaire. Basé sur un modèle d’abonnement annuel, Xedix propose à ses clients de « partager la valeur ajoutée ». Un flou derrière lequel on trouve des tarifs qui dépendront de la volumétrie traitée, et qui démarrent autour de 50 Keuros par an.




Commentaires

1.Posté par Finaz de Villaine le 04/06/2010 16:28

Excellent article concernant une des seules bases de données françaises de mouvance Nosql (Not Only SQL). Xedix est à rapprocher des autres bases plus connues de type Apache CouchDB, MongoDB, Apache Hadoop, HBase, Cassandra, Tokyo, Dynamo, Voldemort, Hypertable, VPork Dynomite... car employées par la plupart des Grands du Web comme Google, eBay, Amazon, Twitter, Facebook, Adobe, MySpace, etc...

Cependant je vois au moins trois problèmes importants à régler :
le premier est que ce concept de base Nosql ne concerne que des entreprises ayant des problèmes spécifiques de types : très grande volumétrie de données (plusieurs dizaines de Tera voire des centaines), croissance exponentielle du trafic & des volumes, plusieurs millions de requêtes aléatoires sur de l'information structurée comme non structurée provenant de multiples accès concurrents, possibilité de tout indexer, système devant fonctionner parfaitement sur du hardware de « commodity » sans altérer la performance.

Deuxième point à régler : La question du Standard. Pour que ces solutions soient exploitables dans le cadre d’une solution d’entreprise, il faut un standard comme ce qui existe actuellement pour les SGBD, merci au langage SQL et aux drivers JDBC ! Concernant les NoSql nous manquons encore un peu de recul, de bonnes pratiques et surtout de personnes capables de factoriser ces concepts pour créer un nouveau standard.

Troisième point : Xedix doit passer du stade "recherche et développement" au stade industrialisation. Par les retours que j'ai pu avoir de plusieurs personnes ayant testé la base, il manque tout un tas de fonctionnalités natives qui ont fait le succès des bases de données classiques (Oracle, IBM, Informix, Ingres...). Le manque de communauté existant autour de la base Xedix se fait également ressentir ! Pour qu'une base de données de type NoSql puisse se commercialiser il faut une large communauté de développeurs corrigeant à la fois les bugs existants mais surtout créant les fonctionnalités demandées par les utilisateurs.

Cependant, pour une fois où il y a un français avec de véritables performances, laissons le temps à Xedix de se professionnaliser et de nous prouver sa valeur ajoutée.

Renaud Finaz de Villaine

2.Posté par Nicolas Huber le 25/06/2010 13:40
Bonjour

Bravo ! Belle solution d'avenir !

Les médias devraient rapidement comprendre leur intéret.

Je pense qu'il faut voir Xedix comme un système capable de trouver une aiguille dans une botte de foin plutôt qu'une base de données, même si une base est forcément sous-jacente.
L'abstraction que represente Xedix permet justement de s'affranchir des problèmes d'accès et d'intégration.

Le marché est énorme et la maturité de la solution permettra de l'adresser rapidement et efficacement.
Les performances semblent époustouflantes, ce qui est un atout majeur sur les volumes de données qui s'accroissent de jours en jours.
Stay Tuned !

Nicolas Huber

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store