Investigative & Regulatory Analytics : Le Big Data au service des Investigations Judiciaires


Rédigé par Nassim Hartani le 22 Juin 2015

Le procureur général de la confédération suisse a annoncé ce mercredi avoir saisi 9 téra-octets de données appartenant à la FIFA dans l'enquête sur l'attribution des coupes du monde de football 2018 et 2022.



Nassim Hartani
Il ne s’agit pas de la première affaire judiciaire ou un volume important de données électroniques est saisi et analysé. En effet, les grosses investigations de fraude, corruption ou non-conformité règlementaire telles que celles opérées par les autorités de régulation (marchés financiers, concurrence, énergie…) peuvent porter sur plusieurs millions de documents électroniques : des données structurées (transactions financières) mais aussi des données non-structurées tels que des e-mails, des documents électroniques et papiers.
L’enjeu de ces investigations est de taille car les sanctions peuvent être très lourdes (récemment encore, BNP Paribas s’est vue infligée une amende record de 6 milliards d’euros), les conséquences peuvent même aller jusqu’à causer la faillite à l’exemple de l’affaire Enron.

Toutes les dimensions du Big Data sont présentes dans ce genre d’investigation

La recherche d’éléments pertinents pour ce genre d’affaires nécessite l’analyse d’une large quantité de données très hétérogènes, l’ensemble des dimensions du « Big Data » sont couvertes :

Variété :
Les données saisies dans le cadre des enquêtes règlementaires sont extrêmement diverses :
- Données structurées : transactions financières
- Documents électroniques : E-mails, Chats, Documents bureautique…
- Documents scannés : fax, contrats, documents archivés…
- Documents audio : conversations téléphoniques, notamment dans les salles de marché où les enregistrements vocaux font l’objet d’une obligation réglementaire

Volume :
Les plus grosses affaires nécessitent de traiter des millions de documents pour des volumes pouvant atteindre plusieurs dizaines de téra-octets.

Vitesse :
Ce genre de procédures est marqué par le caractère strict et impératif de l’échéance qui est fixée par les autorités juridictionnelles et donc nécessite un traitement rapide pour respecter les délais impartis.

Applications du Big Data dans le cadre judiciaire

Aujourd’hui, de nombreuses technologies de Big Data sont utilisées efficacement dans le cadre d’investigations judiciaires d’envergure. Loin d’être exhaustifs en voici quelques exemples :

L’analyse de masse de documents électroniques et papier :
Indexation de millions de fichiers et e-mails saisis pour construire un entrepôt de métadonnées entièrement requétable :
- Extraction des fichiers inclus dans des conteneurs (zip, archives mail, pièces jointes …)
- Extraction des métadonnées telles que la date de création/modification des documents, l’auteur, les personnes qui en ont possession, la position GPS des photos…
- Indexation du texte y compris des documents scannés au travers de l’OCR
- Analyse sémantique du texte pour reconnaitre les entités : pays, numéros de brevets, sommes d’argents…

A partir du texte et des métadonnées, un premier tri est effectué : filtrage par mots-clés, période, types de fichiers…

Puis une classification automatique des documents restants est faite pour identifier ceux qui sont potentiellement pertinents pour l’affaire :
- Documents non pertinent : étrangers à l’affaire
- Documents pertinent : liés à l’affaire
- Documents Confidentiel : contenant des informations confidentielles telles que les informations nominatives des personnes, N° de sécurité sociale… qui devront être anonymisés.

Cette méthode repose sur l’apprentissage automatique à partir d’un échantillon de documents évalués par un expert/avocat.

L’analyse audio :
A partir d’une série de fichiers audio, un index phonétique est construit, cet index est alors interrogé pour rechercher les séquences sonores contenant des mots-clés particuliers avec toutes les combinaisons qu’offre une recherche avancée :
- Rechercher les mots « amiante » et « responsabilité » dans la même séquence
- Rechercher le mot « intérêt » précédé par « dommages » au cours des 30 secondes antérieures
- etc

Perspectives

Tous ces exemples sont aujourd’hui une réalité transposable à de nombreux champs d’application comme les industries de la presse et des médias audio-visuels, la relation client ou la sécurité des réseaux.
En ce qui concerne les enquêtes judicaires, on sait aujourd’hui analyser les transactions, le texte et l’audio. La prochaine étape pourrait être l’extension des capacités analytiques à la vidéo, en guise d’exemple on pourrait dans un futur proche interroger un système de vidéo surveillance en quasi temps-réel pour rechercher l’ensemble des séquences dans lesquelles une voiture rouge apparait !



Dans la même rubrique :