Lancement de Neo4j pour la science des données de graphes, le premier framework de graphes d'entreprise pour les Data Scientists


Rédigé par Communiqué de Neo4j le 8 Avril 2020

Les organisations peuvent désormais traiter des questions jusque-là insolubles en utilisant les structures de réseaux dans les données pour améliorer les analyses et le Machine Learning.



Neo4j pour la Science des données de Graphes combine trois domaines fonctionnels clés. Des algorithmes et des analyses de graphes souples et évolutifs, une base de données de graphes native et la visualisation de graphes pour la compréhension et l'exploration.
Neo4j, le leader de la technologie des graphes, annonce la disponibilité de sa solution Neo4j pour la Science des données de Graphes, le premier environnement de science des données conçu pour tirer parti de la puissance prédictive des relations dans les déploiements en grandes entreprises.

L'imprévisibilité du contexte économique actuel fait ressortir le besoin des entreprises d'extraire davantage de valeur des ensembles existants de données, de faire progresser en continu la précision des prédictions et de répondre rapidement à des besoins métier qui évoluent. Neo4j pour la Science des données de Graphes aide les data scientists à exploiter les relations et les structures de réseaux hautement prédictives, mais largement sous utilisées afin de résoudre des problèmes complexes. Ceux-ci consistent par exemple à lever l'ambiguïté sur les utilisateurs de multiples plateformes et points de contact, à identifier à l'avance les interventions dans les parcours complexes de patients et à prédire la fraude dans des séquences comportementales apparemment anodines.

Neo4j pour la Science des données de Graphes allie un espace de travail natif d'analyse des graphes, une base de données de graphes, des algorithmes de graphes évolutifs et une solution de visualisation afin d'offrir une expérience fiable et un usage simple. Ce framework permet aux experts en science des données d'opérer en toute confiance de meilleures analyses et des modèles de Machine Learning qui déduisent des comportements en fonction de données connectées et de structures de réseaux.

Alicia Frame, cheffe de produit et experte en science des données chez Neo4j, explique pourquoi Neo4j pour la Science des données de Graphes donne le moyen le plus rapide d'obtenir de meilleures prédictions : « En science des données, on croit souvent à tort que plus il y a de données, plus il y a de précision et moins il y a de faux positifs » explique Alicia Frame. « En réalité, de nombreux modèles en science des données passent à côté des éléments les plus prédictifs des données, à savoir les relations et structures qui s'y trouvent. Neo4j pour la Science des données de Graphes a été conçu dans cet objectif : améliorer la précision prédictive du Machine Learning ou répondre à des questions analytiques, jusque-là insolubles en utilisant les relations intrinsèques aux données existantes. »

Par exemple, l'analyse de la fraude telle que la fraude d'identité et la détection des réseaux frauduleux s'étend à des domaines allant des services financiers à tous les types d'assurance, jusqu'au secteur public avec notamment l'évasion fiscale. La moindre amélioration prédictive, aussi mineure soit-elle, peut se traduire par des économies de plusieurs millions. Neo4j pour la Science des données de Graphes facilite les améliorations incrémentielles sans altérer les canaux de Machine Learning en place :

- Un scientifique des données peut révéler des ensembles de transactions suspectes en utilisant des algorithmes de détection de communautés, comme les composants connexes, afin d'analyser un comportement.
- Il peut ensuite approfondir en appliquant des algorithmes de graphes tels que la Centralité des interactions ou PageRank pour mettre à jour des structures dissimulées comme des comptes inhabituellement influents en termes de flux d'argent et d'informations.
- Un analyste peut explorer ces clusters de façon intuitive et collaborer avec les experts de la fraude pour déduire quels sont les éléments (par exemple les fonctions) qui prédisent le mieux les comportements criminels avec Neo4j Bloom.
- Il peut effectuer des analyses de type « analyses d'hypothèse ou What if » et même, des « recettes » d'algorithmes de graphes avec un espace de travail mutable en mémoire sur lequel les graphes peuvent être remodelés à la volée.
- Une fois les recettes algorithmiques validées et comprises, elles peuvent servir à des modèles de Machine Learning mis en œuvre pour une prévention proactive de la fraude, plutôt qu'une simple détection.

Neo4j pour la Science des données de Graphes permet aux experts en science des données de répondre à des questions qui ne peuvent être résolues que par le biais d'une compréhension des relations et des structures de données. Les algorithmes de graphes sont un sous-ensemble des outils de la science des données qui capitalisent sur la structure de réseaux permettant de faire des déductions et des prédictions, notamment :

- Identification de clusters et de voisinage par le biais de la détection de communautés et des algorithmes de similarité
- Identification des influenceurs par le biais des algorithmes de centralité ;
- Couplage de modèles topologiques par le biais de la recherche de chemins (pathfinding) et d'algorithmes de prédiction de liens.

Ben Squire, expert senior en science des données chez Meredith Corporation, un conglomérat américain de médias dont les publications magazines, chaînes télévisées, sites web et radios s'adressent à 190 millions d'Américains par mois, partage son expérience de Neo4j for Graph Data Science : « Proposer des contenus pertinents aux utilisateurs en ligne, y compris ceux qui sont anonymes, est essentiel dans notre activité » indique Ben Squire. « Nous utilisons les algorithmes de graphes dans Neo4j pour transformer des milliards de vues de pages en millions d'identités uniques aux profils enrichis. Au lieu de faire des annonces « à l'aveuglette », nous sommes à présent en mesure de mieux comprendre nos clients, ce qui se traduit par des gains majeurs de chiffre d'affaires et un meilleur service aux clients. »

Le Dr. Alexander Jarasch, en charge de la gestion des données et des connaissances au Centre allemand de recherche sur le diabète (DZD) et membre actif de COVIDgraph.org, explique comment Neo4j pour la Science des données de Graphes offre une expérience intuitive grâce à des paramètres de logique et une exploration exhaustive des graphes avec Neo4j Bloom : « Rien n'est plus urgent aujourd'hui que de comprendre le COVID-19 » déclare Alexander Jarasch. « Les graphes nous donnent la possibilité de rassembler les informations essentielles sur cette maladie déroutante et de fournir une vue synthétique de ces données hétérogènes. Actuellement, la compréhension de ce coronavirus est gravement entravée par l'absence de recherches évaluées par les experts et d'essais cliniques à long terme. Neo4j pour la Science des données de Graphes va nous aider à identifier dans quelle direction orienter la recherche biomédicale, les ressources et les efforts. »

Informations complémentaires
Neo4j pour la Science des données de Graphes est un espace de travail d'analyse des graphes avec une base de données de graphes native adaptés à la haute performance de calcul. Les algorithmes de graphes optimisés fonctionnent à l'échelle de milliards de nœuds et peuvent être combinés dans des workflows reproductibles. La création et la persistance natives des graphes permettent une modélisation souple des graphes en mémoire. Enfin, la visualisation des données aide les équipes à explorer les résultats pour prototyper rapidement et à collaborer plus efficacement.

Parmi ses principales fonctionnalités figurent :

● des algorithmes parallèles optimisés qui fonctionnent sur des dizaines de milliards de nœuds et de relations ;
● des fonctionnalités de production telles que l'alimentation déterministe (deterministic seeding) pour une cohérence afin d'accélérer les tests de modèles ;
● un graphe en mémoire évolutif qui se matérialise en parallèle, peut agréger et remodeler de manière flexible le graphe source sous-jacent ;
● un graphe mutable en mémoire qui permet de superposer les étapes d'analyse ;
● une expérience conviviale en science des données avec gestion logique de la mémoire, API intuitive, documentation et guides complets ;
● l'intégration native avec la base de données de graphes leader qu'est Neo4j et qui transforme automatiquement les données pour atteindre une performance de calcul maximale dans l'analyse et le stockage compact des graphes à des fins de persistance ;
● l'exploration visuelle des résultats de graphes et d'algorithmes qui peut être partagée entre les experts en science des données, les développeurs et les équipes commerciales pour une meilleure collaboration.



Dans la même rubrique :