Billy Sokol - CTO, Global Public Sector - MarkLogic
De plus en plus, les recherches sur les actes extrémistes après les attentats, qu'ils soient commis par des individus nés sur le sol des attaques ou des transnationaux, commencent à révéler des lacunes dans la stratégie de données qui impactent la gestion des menaces et les méthodes de dépistage. Ces limites ralentissent les services de sécurité, qu’ils soient au niveau régional ou national dans leur capacité à évoluer et à s’adapter aux menaces. Voici les quatre défis majeurs à résoudre :
Défi n°1 : La prolifération des données et des systèmes d’informations
Les différents services disposent de différents systèmes qu’ils doivent agréger ensemble. Chaque système a été initialement développé en interne, et/ou a fait l’objet d’une acquisition pour des raisons spécifiques à des moments différents par des départements différents. Des demandes d’informations ont été envoyées et après une analyse précise des besoins, des appels d’offres ont été élaboré et envoyé aux différents fournisseurs. Les solutions choisies ont été évaluées sur leurs fonctionnalités et les coûts (raisonnables). Ensuite, ces systèmes ont été déployés en suivant un plan initial pour répondre aux besoins définis et, quelquefois même, répondre à plus de besoins que ceux mentionnés.
Par exemple, un service de renseignements dispose peut-être de systèmes d'informations géo-spatial, d'analyses de liens, d'une gestion des dossiers, de la biométrie et d'outils de recherche, le tout mis en place à des périodes et pour des raisons différentes, et avec des financements différents. Ces systèmes et ces outils fonctionnent exactement comme prévu et donnent entière satisfaction pour les besoins passés. Cependant, ce qui n'a jamais été pris en compte c'est l'intégration de ces systèmes pour de nouvelles applications, des applications qui pourraient être suffisamment agiles pour répondre à de nouvelles menaces, intégrer de nouveaux détecteurs ou de nouvelles méthodes de dépistage et s'adapter à l'évolution des techniques de renseignement analytiques.
La solution à ce problème n'est pas de "tout remplacer". Non seulement, ce n'est pas viable économiquement mais c'est techno-centré, ignorant la réalité qui est que les utilisateurs de ces vieux systèmes sont bien formés, relativement productifs et rompus à toutes les bizarreries.
Défi n°2 : Des silos d'Excellence
Parfois, cette prolifération prend la forme d'environnements analytiques cloisonnés. Organisés autour d'applications ou de systèmes intégrés (statistiques, analyse de liens, GeoINT, SIGINT, OSINT), ces environnements sont à double tranchant. Pour le confort et la productivité de l'utilisateur dans une discipline spécifique, les échanges de données, les travaux en cours et même les produits de renseignements finis sont emprisonnés dans leurs propres silos. Cette solution finit par compliquer l'interopérabilité, elle crée des problèmes de synchronisation et de cohérence des données et diminue le retour sur investissement d'initiatives comme la consolidation de data center et l'adoption d'architectures cloud (privé, public ou hybride).
L'utilisation d'applications individuelles, chacune ayant ses propres bases de données sur lesquelles on se concentrera pour fusionner les informations, notamment les objets et les entités relatifs aux personnes, organisations, événements, lieux, chronologies, va considérablement limiter la lutte contre l'extrémisme et la capacité d'adaptation aux menaces des organismes de contrôle. C'est aussi un gaspillage d'argent, de temps et de ressources, car cela revient à gérer une infrastructure plutôt qu'agir et analyser.
Défi n°3 : De multiples communautés d'intérêt
Si vous vous penchez sur une fonction complexe comme la gestion des menaces, le dépistage et les listes de surveillance qui en découlent, la réalité est que les intérêts de nombreux groupes ou communautés d'intérêts sont en jeu. Outre la sécurité publique et le respect des lois au niveau local, national et international, les responsables du fonctionnement des infrastructures critiques peuvent voir les mêmes données mais ils les utiliseront différemment. De plus, les informations provenant de ces parties prenantes nécessitent des contrôles de sécurité granulaires au niveau de l'attribut ou de la valeur, de sorte que les organisations peuvent respecter ce "besoin de partage" mais elles doivent être capables de sauvegarder les contenus sensibles, tels que les sources et les méthodes. Et même, si l'on va plus loin, lorsque vous jetez un œil aux activités extrémistes liées au crime organisé, au trafic d'êtres humains, au commerce illégal (drogues et armes), vous voyez que l'interaction entre la pauvreté, l'éducation, la disponibilité des services sociaux et des transports est extrêmement complexe.
Il est assez difficile, pour la défense, le renseignement, et le respect des lois, de partager des informations (ne serait-ce qu'au niveau politique). Si les systèmes de gestion des menaces ne sont pas conçus dès le départ pour prendre en compte l’existence de nombreuses communautés d'intérêt impliquées dans le combat contre l'extrémisme, le vrai partage d'information et la collaboration seront difficiles à atteindre.
Défi n° 4 : Rendre opérationnelle la science des données
Aucun doute : l'innovation dans le big data et la science des données va transformer de nombreux aspects de la sécurité et de la sûreté publiques. La science des données doit se conformer à la méthode scientifique. La rigueur appliquée pour créer un algorithme de dépistage pour le contrôle aux frontières doit être la même que pour toute autre expérience. La situation va sans aucun doute s'améliorer au fur et à mesure que la science des données deviendra plus mature. Cependant, aujourd'hui, dans beaucoup d’organisations, la science des données est utilisée comme si vous étiez en train de voir ce qui se développe dans une boîte de Petri mais sans isoler les variables, une par une.
L'architecture informatique entourant la science des données, fréquemment formée d'une collection d'outils open source reliés par Hadoop, nécessite tellement d'efforts et de temps qu'au lieu d'être une plate-forme sur laquelle conduire des expériences, elle devient elle-même l'expérience.
Ce qu'il faut, c'est une plate-forme qui puisse à la fois prendre en charge le processus scientifique de manière libre mais aussi une plate-forme pour faire fonctionner les algorithmes, les modèles, filtres et détecteurs de schémas créés sur "l'établi".
Pour la gestion des menaces, la boucle de rétroaction entre les algorithmes et la création de modèles et l'application dans le monde réel doit être rigoureusement en temps réel (ou temps réfléchi dans le monde de la défense).
La réponse à tous ces défis n'est pas uniquement technique. Il faut faire des changements d'organisation, de culture et de processus drastiques. Cependant, d'après ce que nous avons pu voir fonctionner avec des dizaines d'organismes de sécurité publique à travers le monde, ce sont les aspects de la gestion des menaces et des processus de listes de surveillance qui doivent être mieux gérés en revisitant la stratégie "Data".
Qu'entendons-nous par Stratégie Data ?
Il est difficile d'avoir une approche cohérente pour la conservation, l'intégration, la gestion, le partage et la sécurité des données avec les quatre défis décrits plus haut pour fournir une solution de « Situation Awareness » pour les services luttant contre les contre les extrémistes. Lorsque nous pensons à une Stratégie Data, elle doit répondre à tout cela, quels que soient l'application, le système, la communauté d'intérêt, l'organisation voire la nation. Les données doivent être gérées indépendamment des applications individuelles. Cette stratégie doit intégrer le cycle de vie des données, les attributs des parties prenantes, les contrôles d'accès, toute la gestion des données et procurer du contexte sémantique, temporel et géo spatial.
Il existe une autre approche : le Data Hub Opérationnel
Une réponse possible se trouve dans un modèle architectural de l'entreprise connue sous le nom de Operational Data Hub (ODH). Un Data Hub Opérationnel apporte toutes les données liées à une mission quel que soit le format. On peut indexer toutes les informations structurées, non structurées, sémantiques, géo spatiales, temporelles, métadonnées, les informations de sécurité et les utiliser de manière sécurisée afin d’effectuer des recherches, faire correspondre les données, lancer des alertes, et les explorer via des outils comme l'analyse de liens, les systèmes d'informations géo spatiales et les produits de statistiques. L'intégration et la dissémination sont simplifiées par la présence de liens pour les données et de fonctionnalités via des services web RESTful.
Le Data Hub n'est pas conçu pour de l'analyse ou de la BI mais il va considérablement réduire les tâches d'ETL, l'agrégation et le temps consacré à la gestion des données, les ressources et la complexité de l'analyse ou de la science des données. Le Data Hub est un moyen d'éviter toutes les intégrations point-à-point propres à un environnement informatique complexe. Le Data Hub permet aussi d'éviter une modernisation informatique coûteuse.
Renseignement et production basés sur l'objet
Alors que le Data Hub offre un mécanisme pour organiser, chercher et étiqueter toutes les données pertinentes, il faut constater que ce sont des entités (personnes, organisations, événements, observations et chronologies) qui sont au centre de toute lutte contre les extrémismes et du travail de gestion des menaces, et cela signifie qu'il faut quelque chose de plus. Les personnes impliquées dans l'anti-terrorisme et la gestion des menaces doivent être capables de créer, partager, découvrir et relier ces entités ou objets. Chacun d'eux possède plusieurs attributs avec potentiellement plusieurs valeurs. Les métadonnées spécialisées prouvant la généalogie, la provenance, la validité de la période, les commentaires des analystes et les mentions sécuritaires peuvent aussi être intégrées. La production basée sur l'objet permet d'avoir un cycle de vie des renseignements plus dynamique.
Le cycle de vie des renseignements se définit actuellement par :
Collecte, Traitement, Exploitation, Dissémination
Certains pays dépensent des milliards à collecter des informations, des centaines de millions à les traiter, ils y mettent leurs meilleurs éléments et outils d'analyse, puis ils stockent le tout dans des pdf ou des ppt pour dissémination, faisant passer à la trappe des informations et des données importantes sur les menaces, les personnes, les organisation et les lieux dans ces dossiers qui sont ensuite difficile à trouver et à relier.
La promesse d'une approche basée sur l'objet ou l'entité libère les faits de leur confinement dans des sources sous-jacentes ou des résumés. Cela signifie que tous les services qui coopèrent, et même les pays, peuvent partager les informations dont ils ont besoin de manière plus flexible et sécurisée afin de combattre l'extrémisme.
La fausse dichotomie : les produits Enterprise RDBMS contre les projets NoSQL
En général, il y a peu de débat entre les bases de données relationnelles et les NoSQL car nous vivons la fin de l'époque des SGBDR. L'innovation s'est ralentie de leur côté. Les modèles d'architecture en entreprise basés sur des SGBDR comme les data warehouse ou les data marts répondent à certains défis mais ils ne sont pas adaptés.
Certes, de nombreuses bases de données NoSQL peuvent répondre aux défis n°1 et 2 en promettant de gérer n'importe quel type de données. Mais la plupart des options NoSQL disponibles sont des projets open source et non des produits enterprise. L'open source est très séduisant : presque pas de frais de licences, une capacité de personnalisation pour une organisation ou une mission particulières et l'innovation issue de toute la communauté travaillant à résoudre des problèmes communs. Cependant, ces bases de données NoSQL sont faibles en ce qui concerne la cohérence des données, la reprise après sinistre, la sauvegarde, la réplication et la capacité à gérer n'importe quel type de données et quant à la sécurité aux normes gouvernementales. Ce qui laisse le défi n°3 sans réponse, à moins que les organisations se chargent des lourdes tâches d'ingénierie logicielle qui incombent d'habitude aux éditeurs de logiciels plutôt qu’aux clients.
Au final, les défis de gestion de données auxquels font face les services de lutte anti terroriste et les services de sécurité sont à la fois pour les SGBDR et les bases NoSQL open source loin de répondre aux exigences des entreprise.. La panacée serait une base qui ait l'agilité du NoSQL et la fiabilité d'une base relationnelle.
Défi n°1 : La prolifération des données et des systèmes d’informations
Les différents services disposent de différents systèmes qu’ils doivent agréger ensemble. Chaque système a été initialement développé en interne, et/ou a fait l’objet d’une acquisition pour des raisons spécifiques à des moments différents par des départements différents. Des demandes d’informations ont été envoyées et après une analyse précise des besoins, des appels d’offres ont été élaboré et envoyé aux différents fournisseurs. Les solutions choisies ont été évaluées sur leurs fonctionnalités et les coûts (raisonnables). Ensuite, ces systèmes ont été déployés en suivant un plan initial pour répondre aux besoins définis et, quelquefois même, répondre à plus de besoins que ceux mentionnés.
Par exemple, un service de renseignements dispose peut-être de systèmes d'informations géo-spatial, d'analyses de liens, d'une gestion des dossiers, de la biométrie et d'outils de recherche, le tout mis en place à des périodes et pour des raisons différentes, et avec des financements différents. Ces systèmes et ces outils fonctionnent exactement comme prévu et donnent entière satisfaction pour les besoins passés. Cependant, ce qui n'a jamais été pris en compte c'est l'intégration de ces systèmes pour de nouvelles applications, des applications qui pourraient être suffisamment agiles pour répondre à de nouvelles menaces, intégrer de nouveaux détecteurs ou de nouvelles méthodes de dépistage et s'adapter à l'évolution des techniques de renseignement analytiques.
La solution à ce problème n'est pas de "tout remplacer". Non seulement, ce n'est pas viable économiquement mais c'est techno-centré, ignorant la réalité qui est que les utilisateurs de ces vieux systèmes sont bien formés, relativement productifs et rompus à toutes les bizarreries.
Défi n°2 : Des silos d'Excellence
Parfois, cette prolifération prend la forme d'environnements analytiques cloisonnés. Organisés autour d'applications ou de systèmes intégrés (statistiques, analyse de liens, GeoINT, SIGINT, OSINT), ces environnements sont à double tranchant. Pour le confort et la productivité de l'utilisateur dans une discipline spécifique, les échanges de données, les travaux en cours et même les produits de renseignements finis sont emprisonnés dans leurs propres silos. Cette solution finit par compliquer l'interopérabilité, elle crée des problèmes de synchronisation et de cohérence des données et diminue le retour sur investissement d'initiatives comme la consolidation de data center et l'adoption d'architectures cloud (privé, public ou hybride).
L'utilisation d'applications individuelles, chacune ayant ses propres bases de données sur lesquelles on se concentrera pour fusionner les informations, notamment les objets et les entités relatifs aux personnes, organisations, événements, lieux, chronologies, va considérablement limiter la lutte contre l'extrémisme et la capacité d'adaptation aux menaces des organismes de contrôle. C'est aussi un gaspillage d'argent, de temps et de ressources, car cela revient à gérer une infrastructure plutôt qu'agir et analyser.
Défi n°3 : De multiples communautés d'intérêt
Si vous vous penchez sur une fonction complexe comme la gestion des menaces, le dépistage et les listes de surveillance qui en découlent, la réalité est que les intérêts de nombreux groupes ou communautés d'intérêts sont en jeu. Outre la sécurité publique et le respect des lois au niveau local, national et international, les responsables du fonctionnement des infrastructures critiques peuvent voir les mêmes données mais ils les utiliseront différemment. De plus, les informations provenant de ces parties prenantes nécessitent des contrôles de sécurité granulaires au niveau de l'attribut ou de la valeur, de sorte que les organisations peuvent respecter ce "besoin de partage" mais elles doivent être capables de sauvegarder les contenus sensibles, tels que les sources et les méthodes. Et même, si l'on va plus loin, lorsque vous jetez un œil aux activités extrémistes liées au crime organisé, au trafic d'êtres humains, au commerce illégal (drogues et armes), vous voyez que l'interaction entre la pauvreté, l'éducation, la disponibilité des services sociaux et des transports est extrêmement complexe.
Il est assez difficile, pour la défense, le renseignement, et le respect des lois, de partager des informations (ne serait-ce qu'au niveau politique). Si les systèmes de gestion des menaces ne sont pas conçus dès le départ pour prendre en compte l’existence de nombreuses communautés d'intérêt impliquées dans le combat contre l'extrémisme, le vrai partage d'information et la collaboration seront difficiles à atteindre.
Défi n° 4 : Rendre opérationnelle la science des données
Aucun doute : l'innovation dans le big data et la science des données va transformer de nombreux aspects de la sécurité et de la sûreté publiques. La science des données doit se conformer à la méthode scientifique. La rigueur appliquée pour créer un algorithme de dépistage pour le contrôle aux frontières doit être la même que pour toute autre expérience. La situation va sans aucun doute s'améliorer au fur et à mesure que la science des données deviendra plus mature. Cependant, aujourd'hui, dans beaucoup d’organisations, la science des données est utilisée comme si vous étiez en train de voir ce qui se développe dans une boîte de Petri mais sans isoler les variables, une par une.
L'architecture informatique entourant la science des données, fréquemment formée d'une collection d'outils open source reliés par Hadoop, nécessite tellement d'efforts et de temps qu'au lieu d'être une plate-forme sur laquelle conduire des expériences, elle devient elle-même l'expérience.
Ce qu'il faut, c'est une plate-forme qui puisse à la fois prendre en charge le processus scientifique de manière libre mais aussi une plate-forme pour faire fonctionner les algorithmes, les modèles, filtres et détecteurs de schémas créés sur "l'établi".
Pour la gestion des menaces, la boucle de rétroaction entre les algorithmes et la création de modèles et l'application dans le monde réel doit être rigoureusement en temps réel (ou temps réfléchi dans le monde de la défense).
La réponse à tous ces défis n'est pas uniquement technique. Il faut faire des changements d'organisation, de culture et de processus drastiques. Cependant, d'après ce que nous avons pu voir fonctionner avec des dizaines d'organismes de sécurité publique à travers le monde, ce sont les aspects de la gestion des menaces et des processus de listes de surveillance qui doivent être mieux gérés en revisitant la stratégie "Data".
Qu'entendons-nous par Stratégie Data ?
Il est difficile d'avoir une approche cohérente pour la conservation, l'intégration, la gestion, le partage et la sécurité des données avec les quatre défis décrits plus haut pour fournir une solution de « Situation Awareness » pour les services luttant contre les contre les extrémistes. Lorsque nous pensons à une Stratégie Data, elle doit répondre à tout cela, quels que soient l'application, le système, la communauté d'intérêt, l'organisation voire la nation. Les données doivent être gérées indépendamment des applications individuelles. Cette stratégie doit intégrer le cycle de vie des données, les attributs des parties prenantes, les contrôles d'accès, toute la gestion des données et procurer du contexte sémantique, temporel et géo spatial.
Il existe une autre approche : le Data Hub Opérationnel
Une réponse possible se trouve dans un modèle architectural de l'entreprise connue sous le nom de Operational Data Hub (ODH). Un Data Hub Opérationnel apporte toutes les données liées à une mission quel que soit le format. On peut indexer toutes les informations structurées, non structurées, sémantiques, géo spatiales, temporelles, métadonnées, les informations de sécurité et les utiliser de manière sécurisée afin d’effectuer des recherches, faire correspondre les données, lancer des alertes, et les explorer via des outils comme l'analyse de liens, les systèmes d'informations géo spatiales et les produits de statistiques. L'intégration et la dissémination sont simplifiées par la présence de liens pour les données et de fonctionnalités via des services web RESTful.
Le Data Hub n'est pas conçu pour de l'analyse ou de la BI mais il va considérablement réduire les tâches d'ETL, l'agrégation et le temps consacré à la gestion des données, les ressources et la complexité de l'analyse ou de la science des données. Le Data Hub est un moyen d'éviter toutes les intégrations point-à-point propres à un environnement informatique complexe. Le Data Hub permet aussi d'éviter une modernisation informatique coûteuse.
Renseignement et production basés sur l'objet
Alors que le Data Hub offre un mécanisme pour organiser, chercher et étiqueter toutes les données pertinentes, il faut constater que ce sont des entités (personnes, organisations, événements, observations et chronologies) qui sont au centre de toute lutte contre les extrémismes et du travail de gestion des menaces, et cela signifie qu'il faut quelque chose de plus. Les personnes impliquées dans l'anti-terrorisme et la gestion des menaces doivent être capables de créer, partager, découvrir et relier ces entités ou objets. Chacun d'eux possède plusieurs attributs avec potentiellement plusieurs valeurs. Les métadonnées spécialisées prouvant la généalogie, la provenance, la validité de la période, les commentaires des analystes et les mentions sécuritaires peuvent aussi être intégrées. La production basée sur l'objet permet d'avoir un cycle de vie des renseignements plus dynamique.
Le cycle de vie des renseignements se définit actuellement par :
Collecte, Traitement, Exploitation, Dissémination
Certains pays dépensent des milliards à collecter des informations, des centaines de millions à les traiter, ils y mettent leurs meilleurs éléments et outils d'analyse, puis ils stockent le tout dans des pdf ou des ppt pour dissémination, faisant passer à la trappe des informations et des données importantes sur les menaces, les personnes, les organisation et les lieux dans ces dossiers qui sont ensuite difficile à trouver et à relier.
La promesse d'une approche basée sur l'objet ou l'entité libère les faits de leur confinement dans des sources sous-jacentes ou des résumés. Cela signifie que tous les services qui coopèrent, et même les pays, peuvent partager les informations dont ils ont besoin de manière plus flexible et sécurisée afin de combattre l'extrémisme.
La fausse dichotomie : les produits Enterprise RDBMS contre les projets NoSQL
En général, il y a peu de débat entre les bases de données relationnelles et les NoSQL car nous vivons la fin de l'époque des SGBDR. L'innovation s'est ralentie de leur côté. Les modèles d'architecture en entreprise basés sur des SGBDR comme les data warehouse ou les data marts répondent à certains défis mais ils ne sont pas adaptés.
Certes, de nombreuses bases de données NoSQL peuvent répondre aux défis n°1 et 2 en promettant de gérer n'importe quel type de données. Mais la plupart des options NoSQL disponibles sont des projets open source et non des produits enterprise. L'open source est très séduisant : presque pas de frais de licences, une capacité de personnalisation pour une organisation ou une mission particulières et l'innovation issue de toute la communauté travaillant à résoudre des problèmes communs. Cependant, ces bases de données NoSQL sont faibles en ce qui concerne la cohérence des données, la reprise après sinistre, la sauvegarde, la réplication et la capacité à gérer n'importe quel type de données et quant à la sécurité aux normes gouvernementales. Ce qui laisse le défi n°3 sans réponse, à moins que les organisations se chargent des lourdes tâches d'ingénierie logicielle qui incombent d'habitude aux éditeurs de logiciels plutôt qu’aux clients.
Au final, les défis de gestion de données auxquels font face les services de lutte anti terroriste et les services de sécurité sont à la fois pour les SGBDR et les bases NoSQL open source loin de répondre aux exigences des entreprise.. La panacée serait une base qui ait l'agilité du NoSQL et la fiabilité d'une base relationnelle.