Richard Henderson, Solution Architect, TigerGraph EMEA
L'analyse de relations complexes (deep links) des graphes donne l'impulsion à de nouveaux développements dans le machine learning. À la clé : l’apprentissage non supervisé des patterns de graphes, l’enrichissement d’attributs pour l’apprentissage supervisé, ainsi que des modèles et résultats explicables. Dans les années à venir, les entreprises auront tout à gagner à adopter cette combinaison puissante de technologies.
Le machine learning sous-tend désormais de nombreuses tâches de calcul complexes comme la détection des fraudes, les recommandations personnalisées, l’analyse prédictive, l’identification de groupes d’utilisateurs et d’influenceurs, ou encore le reporting de failles ou goulets d’étranglement dans les opérations internes et supply chains.
Le problème, c'est que le machine learning – y compris celui basé sur les graphes – est particulièrement gourmand en ressources informatiques. Chaque arc, ou niveau de données connectées, accroît le volume des données de recherche de façon exponentielle. Le traitement massivement parallèle s’avère alors indispensable pour les parcourir. Dans de telles conditions, les bases de données clé-valeur ne sont pas viables dans la mesure où elles impliquent un très grand nombre de recherches de table séparées. Quant aux systèmes de gestion de base de données relationnelle (SGBDR), ils nécessiteraient la création de jointures pour chaque requête. Même une base de données de graphes standard peinerait à analyser les relations complexes de graphes volumineux.
La solution ? Une base de données de graphes native qui intègre des fonctions de traitement distribué et massivement parallèle.
Le machine learning sous-tend désormais de nombreuses tâches de calcul complexes comme la détection des fraudes, les recommandations personnalisées, l’analyse prédictive, l’identification de groupes d’utilisateurs et d’influenceurs, ou encore le reporting de failles ou goulets d’étranglement dans les opérations internes et supply chains.
Le problème, c'est que le machine learning – y compris celui basé sur les graphes – est particulièrement gourmand en ressources informatiques. Chaque arc, ou niveau de données connectées, accroît le volume des données de recherche de façon exponentielle. Le traitement massivement parallèle s’avère alors indispensable pour les parcourir. Dans de telles conditions, les bases de données clé-valeur ne sont pas viables dans la mesure où elles impliquent un très grand nombre de recherches de table séparées. Quant aux systèmes de gestion de base de données relationnelle (SGBDR), ils nécessiteraient la création de jointures pour chaque requête. Même une base de données de graphes standard peinerait à analyser les relations complexes de graphes volumineux.
La solution ? Une base de données de graphes native qui intègre des fonctions de traitement distribué et massivement parallèle.
Apprentissage non supervisé
Relativement nouvelle, l’idée d’appliquer les fonctionnalités des bases de données de graphes au machine learning coule pourtant de source. Après tout, le Google Knowledge Graph, qui a popularisé l’extraction d’informations exploitables sur la base de patterns de relations entre les données, date déjà de 2012. En outre, les graphes sont connus pour faciliter le stockage et la mise en relation de données complexes afin d’en déduire des conclusions.
Si le concept a mis du temps à s’imposer, c’est parce que, jusqu’à récemment, les bases de données de graphes ne prenaient pas en charge les algorithmes d’analyse de relations complexes (Deep-Link Analytics) et géraient mal les très grands ensembles de données. Aujourd’hui, l’utilisation des algorithmes de machine learning dans les bases de données de graphes natives ouvre un tout nouveau champ des possibles pour ces méthodes d’apprentissage non supervisé. Elle permet l'usage de catégories entières d’algorithmes de graphes pour l’extraction d’informations métiers exploitables :
● Détection de communautés
● PageRank
● Propagation de labels
● Centralité d’intermédiarité (betweenness)
● Centralité de proximité (closeness)
● Voisinages similaires
Tous ces algorithmes doivent pouvoir collecter des données et les analyser tout en traversant un grand nombre de nœuds et d’arêtes. Il s’agit là d’une fonctionnalité puissante des bases de données de graphes nouvelle génération. Sans elle, il serait tout simplement impossible d’exécuter bon nombre de ces algorithmes.
Aujourd’hui, ces derniers aident les entreprises à résoudre un large éventail de problèmes complexes : détection des fraudes, identification de groupes d’utilisateurs et de communautés, reporting des failles ou des goulets d’étranglement dans les opérations et supply chains, etc.
Si le concept a mis du temps à s’imposer, c’est parce que, jusqu’à récemment, les bases de données de graphes ne prenaient pas en charge les algorithmes d’analyse de relations complexes (Deep-Link Analytics) et géraient mal les très grands ensembles de données. Aujourd’hui, l’utilisation des algorithmes de machine learning dans les bases de données de graphes natives ouvre un tout nouveau champ des possibles pour ces méthodes d’apprentissage non supervisé. Elle permet l'usage de catégories entières d’algorithmes de graphes pour l’extraction d’informations métiers exploitables :
● Détection de communautés
● PageRank
● Propagation de labels
● Centralité d’intermédiarité (betweenness)
● Centralité de proximité (closeness)
● Voisinages similaires
Tous ces algorithmes doivent pouvoir collecter des données et les analyser tout en traversant un grand nombre de nœuds et d’arêtes. Il s’agit là d’une fonctionnalité puissante des bases de données de graphes nouvelle génération. Sans elle, il serait tout simplement impossible d’exécuter bon nombre de ces algorithmes.
Aujourd’hui, ces derniers aident les entreprises à résoudre un large éventail de problèmes complexes : détection des fraudes, identification de groupes d’utilisateurs et de communautés, reporting des failles ou des goulets d’étranglement dans les opérations et supply chains, etc.
Apprentissage supervisé
Les graphes donnent également un sérieux coup de pouce à l’apprentissage supervisé en permettant l'analyse d'un ensemble bien plus riche d’attributs de données, ce qui vous permet de déployer des algorithmes de machine learning plus sophistiqués.
Prenons l’exemple de la détection d’appels indésirables sur un vaste réseau de téléphonie mobile. C’est précisément le problème que China Mobile souhaitait résoudre. Avec plus de 900 millions d’abonnés, l’opérateur assure plus de deux milliards d’appels téléphoniques par semaine. Toutefois, un petit pourcentage de ces appels sont indésirables voire frauduleux. L’opérateur était déterminé à y mettre fin.
Pour cela, il suffit d’analyser les attributs de données du téléphone émettant l’appel. S’ils remplissent les critères d’un appelant frauduleux, la personne appelée reçoit un message d'avertissement – avant même qu’elle décroche – la prévenant qu’il pourrait bien s’agir d’une arnaque. Elle peut alors décider de répondre ou non.
À première vue, l’opérateur aurait pu s’appuyer sur un ensemble d’attributs de données relativement simples pour détecter les téléphones des fraudeurs. Mais le problème avec des critères comme la durée des appels et le pourcentage d’appels rejetés, c'est qu'ils finissent par signaler un grand nombre d’appels légitimes comme suspects. Il fallait donc éliminer ces faux positifs.
C’est pourquoi China Mobile a choisi d’élargir considérablement son champ d’analyse et de passer au crible 118 attributs de données pour mieux distinguer les téléphones légitimes des appels malveillants. L’opérateur avait besoin d’algorithmes de machine learning suffisamment puissants pour analyser toutes ces caractéristiques rapidement, avant que le réseau ait eu le temps de connecter les deux téléphones. Grâce au machine learning, il est possible de classifier un appelant à la lumière de ses relations avec d’autres téléphones sur le réseau, elles-mêmes synthétisées en trois propriétés clés :
● Groupe stable – basé sur le nombre de téléphones vers et depuis lesquels un appareil donné émet et reçoit régulièrement des appels. Parmi les facteurs pertinents figurent le nombre de téléphones régulièrement contactés, mais aussi la fréquence des interactions entrantes et sortantes et la durée de la relation avec chaque téléphone.
● Connexions au sein du groupe – l’étroitesse des relations entre les téléphones régulièrement en contact avec l’appareil concerné.
● Triangles d’amitié – la portée des relations étendues entre un téléphone donné et d’autres. Il s’agit de savoir si un téléphone entretient des relations avec d’autres, eux-mêmes connectés à d’autres, qui à leur tour émettent des appels vers le premier (et forment ainsi une sorte de boucle relationnelle).
Il se trouve que les téléphones émetteurs d’appels frauduleux échouent systématiquement à ces trois « tests ». Difficile en effet pour les arnaqueurs de corriger ou dissimuler ces caractéristiques sur les téléphones utilisés. Avec des données issues des téléphones légitimes et malveillants connus, il est possible d’entraîner les algorithmes de machine learning à reconnaître efficacement les comportements suspects.
La modélisation de ces indicateurs est une chose, mais leur implémentation en temps réel à travers un réseau de près d’un milliard de téléphones en est une autre. Le facteur temps réel est crucial car il ne sert à rien de signaler un appel potentiellement frauduleux si le message arrive après que la personne ait décroché. C’est notamment pour cette raison que China Mobile a opté pour les bases de données de graphes.
En clair, une base de données de graphes native intègre le langage de requête nécessaire pour parcourir de nombreuses relations, puis filtrer et agréger les résultats. Mais ce n’est pas tout ! Elle offre également la puissance de calcul et l’architecture système sous-jacente indispensables à une exécution en temps réel.
Prenons l’exemple de la détection d’appels indésirables sur un vaste réseau de téléphonie mobile. C’est précisément le problème que China Mobile souhaitait résoudre. Avec plus de 900 millions d’abonnés, l’opérateur assure plus de deux milliards d’appels téléphoniques par semaine. Toutefois, un petit pourcentage de ces appels sont indésirables voire frauduleux. L’opérateur était déterminé à y mettre fin.
Pour cela, il suffit d’analyser les attributs de données du téléphone émettant l’appel. S’ils remplissent les critères d’un appelant frauduleux, la personne appelée reçoit un message d'avertissement – avant même qu’elle décroche – la prévenant qu’il pourrait bien s’agir d’une arnaque. Elle peut alors décider de répondre ou non.
À première vue, l’opérateur aurait pu s’appuyer sur un ensemble d’attributs de données relativement simples pour détecter les téléphones des fraudeurs. Mais le problème avec des critères comme la durée des appels et le pourcentage d’appels rejetés, c'est qu'ils finissent par signaler un grand nombre d’appels légitimes comme suspects. Il fallait donc éliminer ces faux positifs.
C’est pourquoi China Mobile a choisi d’élargir considérablement son champ d’analyse et de passer au crible 118 attributs de données pour mieux distinguer les téléphones légitimes des appels malveillants. L’opérateur avait besoin d’algorithmes de machine learning suffisamment puissants pour analyser toutes ces caractéristiques rapidement, avant que le réseau ait eu le temps de connecter les deux téléphones. Grâce au machine learning, il est possible de classifier un appelant à la lumière de ses relations avec d’autres téléphones sur le réseau, elles-mêmes synthétisées en trois propriétés clés :
● Groupe stable – basé sur le nombre de téléphones vers et depuis lesquels un appareil donné émet et reçoit régulièrement des appels. Parmi les facteurs pertinents figurent le nombre de téléphones régulièrement contactés, mais aussi la fréquence des interactions entrantes et sortantes et la durée de la relation avec chaque téléphone.
● Connexions au sein du groupe – l’étroitesse des relations entre les téléphones régulièrement en contact avec l’appareil concerné.
● Triangles d’amitié – la portée des relations étendues entre un téléphone donné et d’autres. Il s’agit de savoir si un téléphone entretient des relations avec d’autres, eux-mêmes connectés à d’autres, qui à leur tour émettent des appels vers le premier (et forment ainsi une sorte de boucle relationnelle).
Il se trouve que les téléphones émetteurs d’appels frauduleux échouent systématiquement à ces trois « tests ». Difficile en effet pour les arnaqueurs de corriger ou dissimuler ces caractéristiques sur les téléphones utilisés. Avec des données issues des téléphones légitimes et malveillants connus, il est possible d’entraîner les algorithmes de machine learning à reconnaître efficacement les comportements suspects.
La modélisation de ces indicateurs est une chose, mais leur implémentation en temps réel à travers un réseau de près d’un milliard de téléphones en est une autre. Le facteur temps réel est crucial car il ne sert à rien de signaler un appel potentiellement frauduleux si le message arrive après que la personne ait décroché. C’est notamment pour cette raison que China Mobile a opté pour les bases de données de graphes.
En clair, une base de données de graphes native intègre le langage de requête nécessaire pour parcourir de nombreuses relations, puis filtrer et agréger les résultats. Mais ce n’est pas tout ! Elle offre également la puissance de calcul et l’architecture système sous-jacente indispensables à une exécution en temps réel.
Modèles explicables
On reproche souvent aux réseaux de neurones et d'apprentissage profond (deep learning) l’opacité de leur démarche. Sur quels facteurs de causalité ont-ils bien pu s’appuyer pour obtenir un résultat donné à partir des entrées fournies ? Cette opacité des systèmes de machine learning fait douter de leur capacité à maintenir des résultats cohérents au fil du temps.
L’univers du machine learning a donc plus que jamais besoin de modèles explicables. L’objectif : mettre en lumière les variables clés associées à un résultat. À cet égard, les analyses de graphes rassemblent et présentent à merveille les éléments qui sous-tendent les décisions de ces algorithmes.
Les utilisateurs ont davantage confiance dans les résultats des algorithmes de machine learning lorsqu'on leur explique la logique sous-jacente. Par exemple, dans le secteur du e-commerce, un consommateur est plus susceptible de suivre une recommandation produit lorsque celle-ci s’accompagne d’une explication (produit acheté par des consommateurs au profil semblable, article similaire ou complémentaire à un autre déjà acheté, etc.).
Dans un cas d’usage plus sensible comme la détection des fraudes, les modèles explicables pourront faire partie des contraintes règlementaires et autres exigences d’audit. Par ailleurs, les équipes chargées d’enquêter sur ces fraudes préféreront connaître les causes d’un signalement plutôt que de recevoir uniquement un simple score de fraude.
En proposant une représentation fidèle des données d’objets en réseau, les bases de données de graphes élargissent le champ d’action des techniques d’apprentissage supervisé et non supervisé. Contrairement aux réseaux de neurones, elles exposent également le processus décisionnel sous-jacent et répondent ainsi au besoin de modèles de machine learning explicables. C’est pourquoi les entreprises misent désormais sur les graphes pour détecter des relations complexes dans de vastes ensembles de données.
L’univers du machine learning a donc plus que jamais besoin de modèles explicables. L’objectif : mettre en lumière les variables clés associées à un résultat. À cet égard, les analyses de graphes rassemblent et présentent à merveille les éléments qui sous-tendent les décisions de ces algorithmes.
Les utilisateurs ont davantage confiance dans les résultats des algorithmes de machine learning lorsqu'on leur explique la logique sous-jacente. Par exemple, dans le secteur du e-commerce, un consommateur est plus susceptible de suivre une recommandation produit lorsque celle-ci s’accompagne d’une explication (produit acheté par des consommateurs au profil semblable, article similaire ou complémentaire à un autre déjà acheté, etc.).
Dans un cas d’usage plus sensible comme la détection des fraudes, les modèles explicables pourront faire partie des contraintes règlementaires et autres exigences d’audit. Par ailleurs, les équipes chargées d’enquêter sur ces fraudes préféreront connaître les causes d’un signalement plutôt que de recevoir uniquement un simple score de fraude.
En proposant une représentation fidèle des données d’objets en réseau, les bases de données de graphes élargissent le champ d’action des techniques d’apprentissage supervisé et non supervisé. Contrairement aux réseaux de neurones, elles exposent également le processus décisionnel sous-jacent et répondent ainsi au besoin de modèles de machine learning explicables. C’est pourquoi les entreprises misent désormais sur les graphes pour détecter des relations complexes dans de vastes ensembles de données.