ILM (Information Lifecycle Management) : comment garantir la disponibilité des données à l'heure du Big Data conformément aux exigences règlementaires tout en réduisant les coûts ?

Arnaud Escoffier, Senior Consultant, Umanis

En outre, il est important de mettre en lumière le fait que la sécurité des données est une problématique majeure. En effet, la sécurité des données n’est pas uniquement liée à leur fuite vers l’extérieur mais elle doit être conceptualisée dans une politique plus globale. Près de 90% des entreprises ont subi une atteinte à la l’intégrité de leurs données (source Ponemon Institute). Ainsi la sécurité des données entraine une nécessaire réflexion autour des droits d’accès, de la sécurisation du transport ainsi que du stockage.
Enfin, de nombreux organismes imposent des réglementations de plus en plus strictes nécessitant une compréhension plus globale et approfondie de la donnée. Citons par exemple Bâle, Solvency, TRACFIN, CNIL… Ces réglementations font coexister au sein d’un même système trois notions distinctes :
- La traçabilité : dictionnaires de données, découverte dynamique, préservation de l’historique et archivage
- La sécurité : attribution de droits et gestion du cycle de vie de la donnée
- Le droit à l’oubli : destruction de données, suppression de droits

Le respect de ces trois exigences peut s’avérer ardu puisque les entreprises se trouvent face à la difficile conciliation de notions aussi antinomiques que la traçabilité et le droit à l’oubli !
De surcroit, dans son texte du 10 janvier 2013, la CNIL prévoit au niveau européen la création du rôle de Délégué à la Protection des Données, et une mise ne conformité sous deux ans à partir de 2014. Le rôle de ce délégué sera de veiller au respect de la sécurité des données et à l’information des personnes tout en contrôlant la mise en place des règles définies par le responsable de traitement, et donc de la charte de préservation de la confidentialité.
Cette obligation légale concernera les autorités ou organismes publics, les entreprises de plus de 250 employés ainsi que les organismes dont les activités de base « consistent en des traitements qui, du fait de leur nature, de leur portée et de leurs finalités, exigent un suivi régulier et systématique des personnes concernées ». Si cette obligation n’est pas respectée (absence de désignation ou de mise à disposition de moyens insuffisants), les amendes peuvent aller jusqu’à 1 000 000 € ou 2% du chiffre d’affaires !

Qu’est ce que l’ILM ?
La croissance annuelle du marché de l’archivage est estimée à plus de 20% entre 2009 et 2014. Bien que l’archivage de la donnée rendu indispensable pour des raisons légales et de conformités réglementaires revête une importance croissante, le premier usage de l’ILM reste aujourd’hui lié au contrôle de l’expansion volumétrique et des performances.
Le cycle de vie de la donnée est composé de 5 phases principales assorties d’un traitement d’exceptions : création et réception (sous forme de courriers, formulaires, rapports, données informatiques,…), distribution (vers l’intérieur ou l’extérieur, dans la mesure ou les éléments expédiés génèrent une trace d’expédition), usage (usage métier, prise de décisions), maintenance (chargement des containers de données, récupération de la donnée et enfin gestion de l’accessibilité (conservation et gestion de l’accessibilité selon les règles inhérentes à la donnée). Il existe des exceptions, en effet, il est possible de placer certaines données en dehors du circuit normal du cycle de vie (cas d’obligation de conservation par exemple). Le rôle de l’ILM est de permettre la prise en compte de toutes ces phases tout en tenant compte des contraintes techniques, métiers et réglementaires.
Pour répondre à ces problématiques, l’ILM doit adresser quatre grandes problématiques que sont l’archivage, le décomissionnement, la sécurisation des tests et la sécurisation de la production. Les solutions d’ILM offrent une palette d’outils permettant de découvrir et d’analyser la donnée ainsi que les règles sous-jacentes afin de l’administrer finement.

En terme d’archivage il est fréquent d’évoquer les trois âges des archives. La CNIL recommande aux détenteurs de données numériques d’adopter une politique d’archivage différenciée selon la nature des données conservées, afin de concilier les besoins d’exploitation des données avec le respect de la vie privée et le « droit à l’oubli » instauré par la loi informatique et libertés mais également de classifier les archives en trois âges, tels que définis par le code du patrimoine :
- Archives courantes : tous documents nécessaires à l’activité des services qui les ont produits
- Archives intermédiaires : données qui ne sont plus d’usage courant mais doivent être conservées temporairement, pour des besoins administratifs ou juridique
- Archives définitives : données ayant un intérêt strictement historique, scientifique ou statistique
Seules les archives définitives peuvent être conservées indéfiniment, à contrario les archives courantes et intermédiaires peuvent être éliminées à l’issue de la durée légale réglementaire de conservation.
Ces trois âges ont bien entendu des répercussions sur la conception même de l’archivage ILM.

Pour permettre un usage adéquat de la donnée, l’archivage doit être « intelligent » et respecter plusieurs critères :
- Les règles métiers et fonctionnelles
- La conservation des référentiels nécessaires à l’exploitation des données (la donnée doit être conservée avec les données de référence pertinente, ce qui implique un surstockage de la donnée, et non une simple répartition entre deux supports
- L’intégrité des grappes référentielles (archivage des factures et contrats afférents en cas d’archive d’un client)
- La gestion des exceptions, en effet en cas de litige, il est important de pouvoir intervenir sur le processus d’archivage automatique
La gestion de l’archivage offerte par les solutions ILM permet la prise en compte de règles complexes et offre les outils permettant de découvrir les relations entre les données (data discovery) et l’importance des documents (e-descovery). Mais la sécurisation des données reste le point sensible. En effet, les tests et la production doivent être sécurisés. Pour être cohérents, les tests doivent être effectués sur les données réelles mais les données de production de doivent pas être visibles de tous. Comme pour l’archivage la difficulté est de préserver la cohérence de l’ensemble et de détecter les données pertinentes à traiter (comme par exemple un numéro de carte bleue dans un champ de commentaire).
En ce qui concerne la sécurisation de la production, les données ne doivent pas être consultables par tous les utilisateurs pourtant il peut être nécessaire d’y accéder à un niveau agrégé, d’en anomyser une partie… Les moteurs de Data masking permettent une centralisation des règles et de la politique de diffusion de l’information. En outre, il existe également des fonctions de Data Redaction qui se substituent au Data Masking pour les données non structurées. Par ailleurs, les moteurs de Data Masking dynamiques s’intercalent entre le SGBD et les outils de restitution et permettent une centralisation des règles et de la politique de diffusion de l’information.

Quels sont les acteurs du marché ?
Le marché est réparti essentiellement entre quatre grands acteurs : HP, Solix, Informatica et IBM. Les produits de ces quatre éditeurs gèrent toutes les applications du marché ainsi que les applications « maison ».
Il existe différents types d’archivage pour différentes données. En complément des systèmes d’archivage pour les données structurées, il existe des archivages essentiellement orientés « données non structurées ». Il est important de noter que même si la plupart des éditeurs de solutions pour données non structurées savent également attaquer des données structurées… ils les transforment au préalable en données non structurées (fichiers csv,…).
Plus particulièrement sur le marché du Data Masking quatre acteurs sont prédominants : IBM (Infosphere Optim Data Privacy qui propose des fonctions de data redaction, data archiving, application retirement et e-discovery), Informatica (le leader en data management propose une fonction de découverte très poussée permettant la simulation des impacts du masquage), Oracle et Grid-Tools (qui met en avant une solution innovante basée sur l’emploi de la « synthetic data generation », qui assure la pertinence des données employées pour masquer.
En conclusion l’ILM permet de répondre aux différents enjeux en termes de respect du cycle de vie de la donnée, de maintien des performances des applications, de gestion de l’obsolescence des applications et des systèmes, mais également de conformité réglementaire (traçabilité et audit des données, confidentialité et sécurité des données).

Les solutions ILM offrent des ensembles d’outils permettant d’ajouter de l’intelligence aux traitements, de les administrer via des IHM et de les programmer. Elles doivent cependant être inscrites dans une démarche de gouvernance de la donnée. En effet, de la bonne analyse de plusieurs composants (analyse des liens entre données, analyses des droits, rôles et processus, cycle de vie de la donnée ou encore définition des politiques de rétention et de purge de l’information) dépend l’efficacité des solutions implémentées.

ILM (Information Lifecycle Management) : comment garantir la disponibilité des données à l'heure du Big Data conformément aux exigences règlementaires tout en réduisant les coûts ?

{{date}} {{title}}