La diversité technologique au service de la lutte contre la fraude financière


Rédigé par Harry Powell, TigerGraph le 6 Juin 2022

Tout comme la diversité des collaborateurs aide à faire surgir les idées les plus créatives au sein des équipes, la pluralité s’impose comme une composante essentielle des technologies data, notamment pour optimiser les performances de vos algorithmes de machine learning.



Harry Powell, Head of Industry Solutions, TigerGraph
Dans son ouvrage intitulé Rebel Ideas: The Power of Diverse Thinking, Matthew Syed avance que la diversité, au-delà des enjeux d’équité et d’égalité des chances, permet de faire émerger les meilleures idées pour donner de l’élan aux projets. L’auteur prend l’exemple d’un groupe d’individus brillants, tous plus ou moins issus du même environnement socioculturel. Ces derniers parviennent à formuler dix bonnes idées, mais pas une de plus. Qu’adviendrait-il, poursuit Syed, si l’on enrichissait ce groupe d’un nouveau membre, provenant cette fois d’un milieu différent ? En supposant que cette personne génère ne serait-ce qu’une seule nouvelle idée, il est possible d’obtenir un gain net pour un investissement somme toute très modeste.

Imaginons que l’une de vos équipes ait pour mission de bâtir des maquettes en Lego. Quiconque a déjà manié ces petites briques de plastique sait qu’il s’agit là d’une excellente solution de construction, qui a su évoluer au fil du temps afin de permettre la création de formes toujours plus complexes.

Néanmoins, une chose est sûre : peu importe que vous construisiez un château ou une fusée, au bout du compte, le résultat ressemblera toujours à un modèle Lego.

Imaginez maintenant qu’un nouveau membre débarque dans votre équipe en vantant les mérites des Meccano. Après une première réaction dubitative et quelques expérimentations, vous réalisez que cet autre système peut non seulement vous aider à bâtir une superstructure pour votre maquette, mais qu’il propose en outre une série de fonctions absentes de chez Lego.
En combinant ces deux technologies, vous pouvez donc construire de nouvelles formes et développer de nouvelles fonctionnalités.
Il en va de même pour les technologies de bases de données. Les bases de données relationnelles, qui constituent le socle des technologies de l’information modernes, nous ont permis d’ériger un système financier à la fois vaste et interconnecté, qui serait inimaginable sans l’apport de l’informatique.

Mais d’un autre côté, la complexité et l’ampleur de ce système ont aussi fait émerger certaines problématiques, en ouvrant notamment la voie à la fraude.

À tel point que la détection des fraudes est devenue un véritable casse-tête pour les banques. Depuis 2009, le marché des plateformes anti-fraude a décuplé en volume pour atteindre la barre des 2 milliards de dollars en 2020. Malgré ces dépenses, on estime qu’environ 30 % des fraudes ne sont pas détectées suffisamment tôt pour être évitées, ce qui coûterait au secteur financier plus de 50 milliards de dollars par an.

Les fraudeurs se montrent quant à eux très habiles pour exploiter les faiblesses de systèmes complexes. Face à ce fléau, les banques ont déployé des équipes d’investigation spécialisées et adopté de nouveaux algorithmes de machine learning.
Cependant, ces programmes atteignent aujourd’hui leurs limites intrinsèques, alors que les data scientists peinent à les rendre plus efficaces qu’ils ne le sont déjà. Le problème ne vient pas tant des algorithmes en soi que du paradigme de données qui les sous-tend.

Tout est question de perspective

Le problème fondamental, pourrait-on dire, est que les algorithmes n’intègrent pas l’ensemble des informations disponibles, la faute au paradigme de données sur lequel ils reposent.

Dans un système de détection des fraudes traditionnel, les algorithmes s’appuient sur des données transactionnelles ainsi que sur des informations relatives aux acteurs de l’opération concernée. En d’autres termes, le système calcule un indice de fraude en observant la nature de la transaction et l’historique des parties prenantes. Il utilise ensuite une série d’algorithmes pour aboutir à un score général basé sur des facteurs de risque connus.

Mais souvent, ces données ne prennent pas en compte les relations qu’entretient chacune des parties avec d’autres entités de l’écosystème financier(personnes, équipements, organisations…) auxquelles est déjà attribué un score de fraude.
Or, il est important d’identifier ces relations avec des entités à haut risque qui, sans être impliquées directement dans la transaction, pourraient exercer un contrôle ou présenter des liens avec l’une des parties.

Faire l’impasse sur ces informations revient à omettre la moitié des données pertinentes pour évaluer le risque de fraude caractérisant chacune des parties engagées dans une transaction.

Le problème est que, bien sûr, pour pouvoir utiliser ces données relationnelles, nous allons devoir construire un système capable de collecter et d’analyser ces données.

Et qui dit nouveau système dit nouveaux outils. Non pas des algorithmes ou des serveurs plus rapides ou plus puissants, mais un tout nouveau regard sur les données. D’une certaine façon, nous devons ajouter les Meccano à nos Lego.

Certaines banques s’engagent déjà sur cette voie en déployant des bases de données de graphes pour analyser les données transactionnelles, avec à la clé des progrès impressionnants en matière d’efficacité.

L’apport des graphes

Les bases de données de graphes éclairent d’un jour nouveau les données de transactions financières. Au lieu de stocker ces informations dans les lignes et les colonnes d’un tableau, elles les enregistrent sous la forme d’une série de nœuds (points de données) et d’arêtes (relations entre les points de données).

Dans une base de données de graphes, une transaction financière peut être modélisée par deux nœuds, représentant chacun l’un des comptes impliqués dans l’opération, rejoints par une arête qui figure quant à elle l’échange de fonds ou d’autres informations. En ajoutant d’autres nœuds et arêtes, nous pouvons ainsi matérialiser les entités associées aux parties prenantes – par exemple des individus et des équipements – ainsi que leurs relations.

Une base de données de graphes peut de fait enrichir vos bases de données relationnelles afin de brosser un tableau hautement intuitif et fonctionnel de l’écosystème financier. Grâce à ce modèle, vous pouvez utiliser une série d’algorithmes et de requêtes de graphes standard pour récupérer les informations dont vous avez besoin.

L’avantage des graphes, par rapport aux systèmes traditionnels, est que les requêtes s’exécutent bien plus efficacement que celles des bases de données relationnelles écrites en SQL. Elles sont en outre bien plus intuitives à formuler et à comprendre.
Les requêtes SQL utilisées pour récupérer des données relationnelles impliquent de nombreuses jointures de tables, qui ajoutent de la complexité et élargissent la table de résultats. En conséquence, cette approche fait croître de manière exponentielle les exigences en matière de mémoire et de durée de traitement, tout en nécessitant des instructions spécifiques et toujours plus complexes à coder et à déboguer.

Dans une base de données de graphes, à l’inverse, les relations entre les entités sont explicites et n’ont pas besoin d’être construites au moment de l’exécution. La puissance de calcul se charge donc de relier par des arêtes les différents nœuds afin de peindre un tableau complet des relations qui existent entre les entités, ce qui permet d’augmenter considérablement la quantité de données interrogeables.

En exécutant des algorithmes issus de la théorie des graphes, nous pouvons en outre rechercher le chemin le plus court entre les entités, identifier les anomalies et les influenceurs, ou encore caractériser les communautés d’intérêt : des fonctions toutes très utiles pour faciliter la détection des fraudes.

Grâce aux graphes, il est possible de générer des modèles explicables : là où la méthode traditionnelle se contente d’attribuer un score de fraude, nous dévoilons les connexions spécifiques ayant contribué à ce calcul.

Les données peuvent donc nous révéler si l’une des parties possède ou non un lien significatif avec des entités frauduleuses ou suspectes, que ce soient des personnes, des équipements ou des organisations.

Nous pourrions même aller plus loin en vérifiant si les parties prenantes sont liées à des entités qui, elles-mêmes, entretiennent des relations avec d’autres éléments présentant un risque de fraude élevé. Ce type d’approche permet de contrer une technique courante consistant à superposer les transactions frauduleuses et à utiliser des mules pour blanchir les fonds.

Ces données s’intègrent à leur tour à vos systèmes de machine learning existants pour maximiser vos capacités de détection des fraudes.

Tous ces avantages ne sont pas simplement du domaine de la théorie : partout dans le monde, de grandes banques actionnent les leviers de la diversité technologique pour accéder à des données jusqu’alors inexploitées.

Aux États-Unis, par exemple, quatre banques Tier 1 utilisent des graphes en production afin d’enrichir les fonctionnalités de leurs systèmes de détection des fraudes.

L’une d’entre elles a ainsi enregistré une hausse de 20 % de la détection de la fraude synthétique. Une autre souligne que les graphes représentent l’investissement technologique le plus rentable de ces derniers temps, avec au total une économie de 100 millions de dollars par an. Enfin, n’oublions pas que JPMorgan Chase a décerné son très convoité Hall of Innovation Award 2021 à une solution de graphes.

En conclusion, on pourrait dire que les graphes sont aux bases de données relationnelles ce que les Meccano sont aux Lego : ils fournissent la superstructure et les fonctionnalités nécessaires pour construire des systèmes autrefois inconcevables.



Dans la même rubrique :