Actualités : analyse de données, Business Intelligence, Data Science, Big Data


La NASA utilise Neo4j pour exploiter sa base de données de retours d'expériences


Rédigé par Communiqué de Neo4j le 4 Septembre 2017

« Lessons Learned », la base de connaissances et d'expériences des missions de la NASA depuis 1960, peut dorénavant être consultée, enrichie et traitée grâce à l'utilisation de la base de graphes Neo4j.



Photo by NASA on Unsplash
Photo by NASA on Unsplash
Neo4j, éditeur de la première base de données de graphes au monde, annonce aujourd'hui que la NASA utilise son système éponyme afin de consulter sa base de données « Lessons Learned », et pouvoir réaliser des requêtes complexes avec un temps de réponse quasiment immédiat.

Une base de données qui atteint ses limites
Cette base de données de la NASA est une vaste compilation de connaissances des missions passées, constamment mise à jour et sur laquelle l'agence spatiale s'appuie pour planifier les futurs projets et expéditions dans l'espace.

Elle contient des informations détaillées de chaque mission remontant jusqu'aux années 1950 et chaque archive est révisée et validée avant d'être intégrée. Outre le personnel de la NASA, des milliers de scientifiques, d'ingénieurs, d'enseignants et d'analystes du secteur privé et du secteur public accèdent chaque mois à cette base de données.
Sa taille s'étant amplifiée, l'interface utilisée en interne pour interroger le jeu de données - une recherche par mots clés basée sur un algorithme de type PageRank - devenait peu maniable.

Par exemple, lorsqu'un ingénieur essayait d'effectuer une recherche à partir de 23 mots clés dans cette base de données de près de 10 millions de documents, comme cette dernière se basait sur un algorithme PageRank, les archives positionnées en premières lignes des résultats se trouvaient là parce qu'elles étaient le plus souvent consultées, non parce qu'elles contenaient la bonne information. En outre, après une telle recherche, l'ingénieur se retrouvait avec plus de 1 000 documents qu'il aurait fallu consulter individuellement pour savoir s'ils contenaient les informations nécessaires.

Passer des données à la Connaissance, le bénéfice de la base de données de graphes
La NASA est partie d'un principe simple : l'information n'est pas le pouvoir. C'est la connaissance qui l'est. Ainsi, peut importe le volume d'informations qu'une entreprise ou une organisation peut détenir, si elle ne sait pas la convertir en connaissance exploitable, alors, dans les faits, elle n'a rien.

C'est sur ce principe que l'équipe de David Meza, Chief Knowledge Architect de la NASA, a entrepris le développement de cette nouvelle base de données.

Pour convertir les données en connaissances, il est important de pouvoir combiner gestion des connaissances, maîtrise de l'informatique et de la science de la donnée. La gestion des connaissances est utilisée pour la stratégie, l'informatique pour automatiser le traitement des données et la science de la donnée fournit, quant à elle, les algorithmes et les méthodologies permettant de convertir ces données en connaissances exploitables pour les utilisateurs finaux.

Lorsque l'on combine les trois, on aboutit à ce qu'on pourrait appeler « la visualisation régie par les données ». Ainsi, il vaut mieux privilégier une visualisation issue des données plutôt que d'essayer de faire rentrer les données de force dans une représentation inadaptée.

Et pour cela, les bases de données de graphes en général telles que Neo4j, sont les outils les plus adaptés.

Transformer la connaissance en graphes
Dans un premier temps, la NASA a donc importé l'ensemble de ses données dans Neo4j pour bâtir cette nouvelle base.

La NASA a pris les métadonnées directement dans le fichier source et les a converties en une base de données documentaire. Les données sont présentées par une visualisation naturelle qui permet au cerveau de mieux saisir les schémas.

Au delà des données elles-mêmes, la NASA a pris tous les textes issus des apprentissages des projets et les a soumis à un algorithme de modélisation des sujets, l'allocation de Dirichlet latente qui a renvoyé près de 27 sujets. Ce qui a alors permis de disposer d'un nouvel élément de métadonnées qui a pu être ajouté aux apprentissages afin d'améliorer la recommandation : le sujet.

Dans la mesure où de nombreuses métadonnées étaient associées à ce type d'apprentissages, l'Agence spatiale a pu interconnecter les sujets par leurs catégories respectives. Elle a pu ainsi non seulement disposer des apprentissages avec leur sujet, mais aussi des corrélations entre les différents sujets.

Puis la NASA s'est attaqué à l'intégration des tendances et des matériaux dans la base.

La création de cette base de données a ainsi permis d'offrir à la NASA une visualisation interactive des données qui montre tous les différents sujets générés, ainsi que les termes au sein de ces sujets. Ce qui est particulièrement utile pour un analyste, mais peu utile pour les utilisateurs finaux.

Il restait donc à l'agence spatiale à développer un modèle lui permettant de présenter les données à ses utilisateurs finaux.

Il s'agit d'un modèle de données de graphes simple basé sur des référentiels spécifiques sur lesquels la NASA s'est concentré parce qu'elle a de très nombreux groupes et que chacun détient son propre jeu de données d'intérêt. Les collaborateurs peuvent ainsi voir un apprentissage (nœud violet) qui a été écrit par celui qui l'a soumis (nœud rouge) dans un centre donné (nœud vert). Il se trouve dans une certaine catégorie (nœud jaune) et correspond à un sujet (nœud orange) lui même corrélé à un autre sujet qui contient plusieurs termes (nœud bleu).

David Meza, Chief Knowledge Architect à la NASA, se félicite : « « Neo4j nous a permis de gagner 2 ans de travail et de faire économiser 1 million de dollars d'argent public à l'Etat »


Aller plus loin et plus haut
Aujourd'hui, la NASA se penche sur un autre projet pour examiner tous les commentaires des cosmonautes sur les missions dans la station spatiale internationale des 15 dernières années. Y figurent des commentaires sur ce qui a fonctionné, ce qui n'a pas marché, ce qu'ils ont vraiment apprécié et ce qu'ils n'ont pas aimé. Elle dispose d'une base de données de près de 90 000 commentaires pour lesquels il était vraiment difficile de filtrer et détecter des tendances.




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store