la vectorisation des graphes est un outil puissant pour abstraire les structures de graphes complexes et réduire leur dimension. Cette technique ouvre de nombreuses possibilités quant à l'utilisation de l'apprentissage automatique basé sur les graphes.
Neo4jⓇ, le leader de la technologie des graphes, annonce la nouvelle version de la bibliothèque Graph Data ScienceTM de Neo4j (Neo4j pour la Science des Données de Graphes), une innovation de pointe qui démocratise les techniques avancées d'apprentissage automatique basées sur les graphes en tirant parti du deep learning (apprentissage en profondeur) et des réseaux neuronaux convolutifs de graphes.
Jusqu'à présent, peu d'entreprises en dehors de Google et Facebook avaient les moyens en termes d'intelligence artificielle de tirer profit de la vectorisation des graphes (graph embeddings). Cette technique puissante et novatrice calcule la forme du réseau qui entoure chaque noeud du graphe et permet ainsi d'aboutir à des prédictions d'apprentissage automatique bien plus abouties. La version 1.4 de la bibliothèque Graph Data Science de Neo4j démocratise ces innovations et révolutionne la façon dont les entreprises font des prédictions notamment dans la détection de la fraude, le suivi du parcours client ou patient, la mise au point de médicaments ou la création de graphes de connaissances.
La version 1.4 de la bibliothèque Graph Data Science de Neo4j offre la toute première fonction d'apprentissage automatique basée sur les graphes et dédiée aux entreprises. La capacité à apprendre des caractéristiques généralisées et prédictives à partir des données est primordiale car les entreprises ne savent pas toujours comment représenter les données connectées afin de les utiliser dans des modèles d'apprentissage automatique. La dernière version de Neo4j comprend des algorithmes de vectorisation des graphes qui apprennent de la structure du graphe, au lieu de s'appuyer sur des formules prédéterminées pour calculer des caractéristiques spécifiques telles que les scores de centralité.
Alicia Frame, Chef de produit et data scientist chez Neo4j, explique l'intérêt d'utiliser la version 1.4 de la bibliothèque Graph Data Science de Neo4j pour les équipes d'analytique.
« Nous sommes ravis de mettre à disposition les techniques de pointe de vectorisation des graphes dans un logiciel d'entreprise simple à utiliser » déclare le Dr Frame. « La dernière version de la bibliothèque Graph Data Science de Neo4j démocratise ces techniques de pointe et permet à tout le monde d'utiliser l'apprentissage automatique basé sur les graphes. Cela révolutionne vraiment l'analyse prédictive. »
La vectorisation des graphes sur GOV.UK
Sur le blog GOV.UK, un article récent intitulé « One Graph to rule them all », la data scientist Felisia Loukou et le Dr Matthew Gregory reviennent sur leur premier déploiement d'un modèle d'apprentissage automatique à l'aide de la science des données de graphes et d'un graphe de connaissances Neo4j. Leur modèle recommande automatiquement du contenu aux utilisateurs de GOV.UK en fonction de la page qu'ils sont en train de consulter. Dans leur article d'août 2020, ils expliquent :
« Quel que soit le graphe, node2vec apprend à partir des caractéristiques vectorielles des noeuds, qui peuvent ensuite être utilisées pour diverses tâches d'apprentissage automatique telles que la recommandation de contenu. Au cours de ce processus, la création de l'infrastructure de données nécessaire à l'entraînement et au déploiement d'un modèle est la partie qui prend le plus de temps.. ».
Principales fonctionnalités
Avec la bibliothèque Graph Data Science de Neo4j, les entreprises disposent désormais d'une nouvelle façon d'apprendre de leurs données existantes, d'en obtenir davantage de valeur et d'améliorer en continu la précision prédictive :
● Révéler des informations insoupçonnées : les algorithmes de vectorisation des graphes permettent d'apprendre ce qui est structurellement significatif au sein des données et créent un super-ensemble d'informations habituellement rassemblées par les algorithmes de graphes traditionnels. Pour ce faire, la vectorisation des graphes échantillonne la topologie et les propriétés du graphe, puis en réduisent la complexité pour ne garder que les caractéristiques les plus pertinentes pour approfondir l'apprentissage automatique.
● Éliminer les plateaux là où les algorithmes traditionnels atteignent leur limite. Les algorithmes et la vectorisation de graphes sont capables d'abstraire la structure d'un graphe à partir de sa topologie et de ses propriétés, ce qui permet de prédire des résultats sur la base des relations entre noeuds de données, plutôt qu'à partir des seules données brutes.
● Accélérer le calcul des caractéristiques sur les données par un apprentissage généralisé qui permet d'éviter de tester de multiples algorithmes ciblés quand les facteurs de prédictions sont ambigus notamment en utilisant des méthodes performantes telles que FastRP.
● Intégrer de nouvelles données et prédictions en stockant les fonctions apprises par GraphSAGE dans le nouveau catalogue de modèles d'apprentissage automatique en continu, puis en les appliquant aux nouvelles données afin d'aboutir à davantage de vectorisations et de prédictions, sans avoir à retravailler le modèle.
● Accroître la valeur de la base de données de graphes grâce à l'ajout des résultats de scoring et de classification en continu et à la prédiction des informations manquantes pour améliorer constamment les perspectives.
La version 1.4 de la bibliothèque Graph Data Science de Neo4j inclut trois nouvelles options de vectorisation de graphes qui apprennent de la topologie du graphe et calculent des représentations plus précises :
● node2Vec, algorithme de vectorisation de graphes réputé qui utilise les réseaux neuronaux,
● FastRP, vectorisation de graphes 75 000 fois plus rapide que node2Vec qui fournit une précision équivalente y compris pour les graphes volumineux,
● GraphSAGE, processus de vectorisation et algorithme d'apprentissage de représentation des graphes utilisant des réseaux neuronaux convolutifs. Il peut être appliqué en continu au fur et à mesure de la mise à jour du graphe.
Outre les vectorisations de graphes qui fournissent des représentations vectorielles complexes, la nouvelle version de la bibliothèque Graph Data Science de Neo4j ajoute des algorithmes d'apprentissage automatique tel que l'algorithme k-NN (noeud le plus proche) souvent utilisé pour la classification par modèle afin de faciliter la compréhension des vectorisations de graphes.
Jusqu'à présent, peu d'entreprises en dehors de Google et Facebook avaient les moyens en termes d'intelligence artificielle de tirer profit de la vectorisation des graphes (graph embeddings). Cette technique puissante et novatrice calcule la forme du réseau qui entoure chaque noeud du graphe et permet ainsi d'aboutir à des prédictions d'apprentissage automatique bien plus abouties. La version 1.4 de la bibliothèque Graph Data Science de Neo4j démocratise ces innovations et révolutionne la façon dont les entreprises font des prédictions notamment dans la détection de la fraude, le suivi du parcours client ou patient, la mise au point de médicaments ou la création de graphes de connaissances.
La version 1.4 de la bibliothèque Graph Data Science de Neo4j offre la toute première fonction d'apprentissage automatique basée sur les graphes et dédiée aux entreprises. La capacité à apprendre des caractéristiques généralisées et prédictives à partir des données est primordiale car les entreprises ne savent pas toujours comment représenter les données connectées afin de les utiliser dans des modèles d'apprentissage automatique. La dernière version de Neo4j comprend des algorithmes de vectorisation des graphes qui apprennent de la structure du graphe, au lieu de s'appuyer sur des formules prédéterminées pour calculer des caractéristiques spécifiques telles que les scores de centralité.
Alicia Frame, Chef de produit et data scientist chez Neo4j, explique l'intérêt d'utiliser la version 1.4 de la bibliothèque Graph Data Science de Neo4j pour les équipes d'analytique.
« Nous sommes ravis de mettre à disposition les techniques de pointe de vectorisation des graphes dans un logiciel d'entreprise simple à utiliser » déclare le Dr Frame. « La dernière version de la bibliothèque Graph Data Science de Neo4j démocratise ces techniques de pointe et permet à tout le monde d'utiliser l'apprentissage automatique basé sur les graphes. Cela révolutionne vraiment l'analyse prédictive. »
La vectorisation des graphes sur GOV.UK
Sur le blog GOV.UK, un article récent intitulé « One Graph to rule them all », la data scientist Felisia Loukou et le Dr Matthew Gregory reviennent sur leur premier déploiement d'un modèle d'apprentissage automatique à l'aide de la science des données de graphes et d'un graphe de connaissances Neo4j. Leur modèle recommande automatiquement du contenu aux utilisateurs de GOV.UK en fonction de la page qu'ils sont en train de consulter. Dans leur article d'août 2020, ils expliquent :
« Quel que soit le graphe, node2vec apprend à partir des caractéristiques vectorielles des noeuds, qui peuvent ensuite être utilisées pour diverses tâches d'apprentissage automatique telles que la recommandation de contenu. Au cours de ce processus, la création de l'infrastructure de données nécessaire à l'entraînement et au déploiement d'un modèle est la partie qui prend le plus de temps.. ».
Principales fonctionnalités
Avec la bibliothèque Graph Data Science de Neo4j, les entreprises disposent désormais d'une nouvelle façon d'apprendre de leurs données existantes, d'en obtenir davantage de valeur et d'améliorer en continu la précision prédictive :
● Révéler des informations insoupçonnées : les algorithmes de vectorisation des graphes permettent d'apprendre ce qui est structurellement significatif au sein des données et créent un super-ensemble d'informations habituellement rassemblées par les algorithmes de graphes traditionnels. Pour ce faire, la vectorisation des graphes échantillonne la topologie et les propriétés du graphe, puis en réduisent la complexité pour ne garder que les caractéristiques les plus pertinentes pour approfondir l'apprentissage automatique.
● Éliminer les plateaux là où les algorithmes traditionnels atteignent leur limite. Les algorithmes et la vectorisation de graphes sont capables d'abstraire la structure d'un graphe à partir de sa topologie et de ses propriétés, ce qui permet de prédire des résultats sur la base des relations entre noeuds de données, plutôt qu'à partir des seules données brutes.
● Accélérer le calcul des caractéristiques sur les données par un apprentissage généralisé qui permet d'éviter de tester de multiples algorithmes ciblés quand les facteurs de prédictions sont ambigus notamment en utilisant des méthodes performantes telles que FastRP.
● Intégrer de nouvelles données et prédictions en stockant les fonctions apprises par GraphSAGE dans le nouveau catalogue de modèles d'apprentissage automatique en continu, puis en les appliquant aux nouvelles données afin d'aboutir à davantage de vectorisations et de prédictions, sans avoir à retravailler le modèle.
● Accroître la valeur de la base de données de graphes grâce à l'ajout des résultats de scoring et de classification en continu et à la prédiction des informations manquantes pour améliorer constamment les perspectives.
La version 1.4 de la bibliothèque Graph Data Science de Neo4j inclut trois nouvelles options de vectorisation de graphes qui apprennent de la topologie du graphe et calculent des représentations plus précises :
● node2Vec, algorithme de vectorisation de graphes réputé qui utilise les réseaux neuronaux,
● FastRP, vectorisation de graphes 75 000 fois plus rapide que node2Vec qui fournit une précision équivalente y compris pour les graphes volumineux,
● GraphSAGE, processus de vectorisation et algorithme d'apprentissage de représentation des graphes utilisant des réseaux neuronaux convolutifs. Il peut être appliqué en continu au fur et à mesure de la mise à jour du graphe.
Outre les vectorisations de graphes qui fournissent des représentations vectorielles complexes, la nouvelle version de la bibliothèque Graph Data Science de Neo4j ajoute des algorithmes d'apprentissage automatique tel que l'algorithme k-NN (noeud le plus proche) souvent utilisé pour la classification par modèle afin de faciliter la compréhension des vectorisations de graphes.
Exemple de création d'un graphe de connaissances
Cette image montre le flux de création d'un graphe de connaissances. La version 1.4 de la bibliothèque Graph Data Science de Neo4j permet désormais de créer un flux de bout en bout dans les tâches d'apprentissage automatique basées sur les graphes, telles que la création d'un graphe de connaissances.
Dans un scénario de mise au point d'un médicament, cela signifie qu'il est ainsi possible d'identifier de nouvelles associations entre les gènes et les maladies ou entre les médicaments et les protéines, mais aussi de fournir un contexte immédiat afin d'évaluer la pertinence ou la validité de ces découvertes. En matière de recommandations clients, des enseignements sont tirés des parcours utilisateurs afin de prévoir des recommandations précises lors de futurs achats, tout en présentant des options de leur historique d'achat pour qu'ils se fient davantage aux suggestions.