Pascal Couzinet, directeur d'Emulex pour l'Europe du Sud
En fin de compte, l'enquête du FBI a donné au public un aperçu de la façon dont le déploiement des pratiques Big Data et d'analyse des données pratiques ne fait qu'effleurer l'étendue du problème. Voici un récapitulatif des idées principales de l'article :
• Moins de 24 heures après les deux explosions qui ont tué trois personnes et blessé des dizaines d'autres au 15 avril au marathon de Boston, le FBI avait compilé 10 téraoctets (To) de données dans l'espoir de trouver des aiguilles dans les meules de foin de l'information qui pouvaient mener à des suspects.
• L'enquête du FBI a analysé des milliers d'appels de téléphones portables, de messages, de données des médias sociaux, de photographies et de séquences vidéo-surveillance pour repérer rapidement les suspects.
• Un logiciel de reconnaissance faciale a été utilisé pour comparer les visages sur les photos et la vidéo avec les visas, passeports, permis de conduire et autres bases de données.
• Alors que les 10To de données recueillies par les enquêteurs semblent être une goutte dans l'océan (les fédéraux travaillent généralement avec des pétaoctets de données), l'enquête a toujours présenté des fonctionnaires avec un grand traitement de données en raison du volume considérable, sur différents types de médias et avec une complexité de l'information qu'ils ont à gérer et disposant d'une période de temps étroite pour analyser tout cela.
Traiter plusieurs téraoctets ou davantage de vidéos, d'images numériques, de messages et relevés de téléphones portables est assez complexe. Imaginez la situation catastrophique si vous intégrez en plus les médias sociaux ? Ce que j'ai trouvé le plus intéressant dans cet article, c'est que les enquêteurs ont utilisé les services d'une société appelée Topsy Labs pour passer au crible des milliards de tweets. Topsy a stocké tous les tweets générés depuis juillet 2010, et dans le cas de cette enquête terroriste, les enquêteurs ont pu analyser tous les tweets liés à Boston parmi des centaines de milliards de messages passés et présents. Le logiciel d'analyse des bases de données a permis aux enquêteurs de Topsy de rechercher toutes les références au mot "bombe" dans Twitter dans une région spécifique, compris Boston et ses banlieues adjacentes.
En fin de compte, ce type de recherche détaillée a révélé des références à la bombe supprimées sur les comptes Twitter des deux suspects. Ce type de recherche dans des dossiers publics s'est révélé apporter des indices supplémentaires préjudiciables à l'enquête car des utilisateurs qui ont re-tweeté la bombe étaient mentionnés avec les terroristes présumés. En outre, la technologie "geo-inferencing» de Topsy a permis aux chercheurs de cartographier avec précision d'où provenaient les tweets en question (incroyable quand on pense que seulement environ 1% des utilisateurs de Twitter géo-tag leurs tweets). Selon Topsy, ces capacités sont 20 fois plus précises que les données de localisation de Twitter.
Je pense que le cœur du Big Data, à la base, se situe dans le cadre d'un réseau d'organisations. Il y a des milliers de serveurs exécutant un traitement parallèle pour créer de la valeur et ces serveurs parlent entre eux via Ethernet et les protocoles Fibre Channel. La latence et le débit du trafic du réseau est le chemin critique pour des résultats rapides dans les grands déploiements du Big Data.
• Moins de 24 heures après les deux explosions qui ont tué trois personnes et blessé des dizaines d'autres au 15 avril au marathon de Boston, le FBI avait compilé 10 téraoctets (To) de données dans l'espoir de trouver des aiguilles dans les meules de foin de l'information qui pouvaient mener à des suspects.
• L'enquête du FBI a analysé des milliers d'appels de téléphones portables, de messages, de données des médias sociaux, de photographies et de séquences vidéo-surveillance pour repérer rapidement les suspects.
• Un logiciel de reconnaissance faciale a été utilisé pour comparer les visages sur les photos et la vidéo avec les visas, passeports, permis de conduire et autres bases de données.
• Alors que les 10To de données recueillies par les enquêteurs semblent être une goutte dans l'océan (les fédéraux travaillent généralement avec des pétaoctets de données), l'enquête a toujours présenté des fonctionnaires avec un grand traitement de données en raison du volume considérable, sur différents types de médias et avec une complexité de l'information qu'ils ont à gérer et disposant d'une période de temps étroite pour analyser tout cela.
Traiter plusieurs téraoctets ou davantage de vidéos, d'images numériques, de messages et relevés de téléphones portables est assez complexe. Imaginez la situation catastrophique si vous intégrez en plus les médias sociaux ? Ce que j'ai trouvé le plus intéressant dans cet article, c'est que les enquêteurs ont utilisé les services d'une société appelée Topsy Labs pour passer au crible des milliards de tweets. Topsy a stocké tous les tweets générés depuis juillet 2010, et dans le cas de cette enquête terroriste, les enquêteurs ont pu analyser tous les tweets liés à Boston parmi des centaines de milliards de messages passés et présents. Le logiciel d'analyse des bases de données a permis aux enquêteurs de Topsy de rechercher toutes les références au mot "bombe" dans Twitter dans une région spécifique, compris Boston et ses banlieues adjacentes.
En fin de compte, ce type de recherche détaillée a révélé des références à la bombe supprimées sur les comptes Twitter des deux suspects. Ce type de recherche dans des dossiers publics s'est révélé apporter des indices supplémentaires préjudiciables à l'enquête car des utilisateurs qui ont re-tweeté la bombe étaient mentionnés avec les terroristes présumés. En outre, la technologie "geo-inferencing» de Topsy a permis aux chercheurs de cartographier avec précision d'où provenaient les tweets en question (incroyable quand on pense que seulement environ 1% des utilisateurs de Twitter géo-tag leurs tweets). Selon Topsy, ces capacités sont 20 fois plus précises que les données de localisation de Twitter.
Je pense que le cœur du Big Data, à la base, se situe dans le cadre d'un réseau d'organisations. Il y a des milliers de serveurs exécutant un traitement parallèle pour créer de la valeur et ces serveurs parlent entre eux via Ethernet et les protocoles Fibre Channel. La latence et le débit du trafic du réseau est le chemin critique pour des résultats rapides dans les grands déploiements du Big Data.
Autres articles
-
Implants électroniques : ils vont remplacer les clés, les portefeuilles, et ils aideraient à retrouver les mineurs disparus
-
Étude IBM : les coûts cachés liés aux violations de données augmentent les dépenses des entreprises
-
Avez-vous pensé à vendre vos données à la police ?
-
SAS aide les services de police à résoudre des affaires complexes
-
Déverrouillez l’avenir de la sécurité en ligne grâce à la biométrie