Les données cachées ont beaucoup de valeur : voici comment les exploiter


Rédigé par Alianor Sibai, mc2i Groupe le 1 Avril 2016

2.5 trillions d’octets… C’est la quantité de données quotidiennement générées dans le monde, selon les estimations d’IBM (2014). Qu’elles soient brutes, semi-structurées ou non structurées, elles transitent en masse sur le Web, et incitent les entreprises à faire appel aux technologies du Big Data pour exploiter les données utiles.
Or, l’avènement du Big Data ouvre le débat sur l’accumulation des Dark Data, ces données sombres et inexploitées que l’entreprise a pourtant tout intérêt à sortir de l’ombre.



Les Dark Data au profit des entreprises

Alianor Sibai, Consultant mc2i Groupe
2.5 trillions d’octets… C’est la quantité de données quotidiennement générées dans le monde, selon les estimations d’IBM (2014). Qu’elles soient brutes, semi-structurées ou non structurées, elles transitent en masse sur le Web, et incitent les entreprises à faire appel aux technologies du Big Data pour exploiter les données utiles.
Or, l’avènement du Big Data ouvre le débat sur l’accumulation des Dark Data, ces données sombres et inexploitées que l’entreprise a pourtant tout intérêt à sortir de l’ombre.

Dark Data… Késako ?
Aujourd’hui, on assiste à un phénomène de « datification » ou « datafication », autrement dit la transformation de tout élément lié à un individu en une donnée exploitable… mais pas toujours exploitée. Cette gigantesque masse d’informations n’est cependant pas intégralement constituée de données utiles pour l’entreprise, et se répartit ainsi :
■ Les données vitales ou stratégiques indispensables pour le fonctionnement de l’entreprise ;
■ Les données ROT (Redondantes, Obsolètes, ou Triviales), et régulièrement supprimées ;
■ Les Dark Data ou données sombres qui représenteraient, selon IDC, 90% des données des entreprises.

Mais que sont les Dark Data au juste? Il s’agit de « données potentiellement utiles qui pourraient être obtenues à partir de processus métier, mais ne sont actuellement pas mises à profit ». Autrement dit, une mine d’or aujourd’hui négligée par les entreprises.

Pourquoi sont-elles négligées ?
Les Dark Data échappent aujourd’hui à l’organisation des entreprises pour essentiellement trois raisons.

Premièrement, leur contenu est souvent inconnu. Il en est de même pour leur format qui n’est vraisemblablement pas un format unique. Et dans certains cas extrêmes, la DSI ignore même leur existence ! Deuxièmement, ces data ont généralement une volumétrie très importante, puisqu’elles ne subissent aucun filtrage avant d’être « déversées », en l’état, sur les serveurs. Dernièrement, l’aspect financier lié au traitement des Dark Data n’est pas négligeable. Cette variété de la nature, du format, des niveaux de confidentialité et de sensibilité des données les rend difficilement exploitables avec les technologies classiques.

Quelles sont les conséquences de cette négligence ?
Les Dark Data consomment des ressources de l’entreprise notamment en engendrant d’importants coûts de stockage : 600k € par entreprise et par an, selon l’étude Databerg 2015. La conservation de ce gisement de données comporte des risques de sanctions légales liées au stockage de données personnelles.
Un autre risque omniprésent est celui du piratage des données. Ces dernières n’étant ni sécurisées ni cryptées, elles peuvent faire l’objet d’attaques informatiques. Enfin, toute donnée non exploitée constitue une potentielle perte de valeur pour l’entreprise.

Comment les exploiter ?
Il devient aujourd’hui indispensable pour les entreprises de mettre en place une politique de collecte, analyse, structuration, traitement, sécurisation et stockage des données, afin de tirer parti de ces informations qui semblent inépuisables !

Il faut commencer par un état des lieux des serveurs de l’entreprise et des données stockées sur ces serveurs pour en identifier la nature. Une fois identifiées, ces données doivent être réaffectées en tant que données ROT ou données stratégiques pour l’entreprise. Mais comment identifier une donnée pertinente ? Nous pouvons considérer une donnée comme utile à partir du moment où elle permet d’apporter de la valeur ou d’influer sur une prise de décision.

Pour traiter les informations stratégiques, il faut alors faire appel aux technologies du Big Data qui permettent l’analyse et l’exploitation des données en masse, qu’elles soient de type « machine » (logs, archives, journaux d’activités et autres données générées automatiquement par les machines) ou fonctionnelles (intentionnellement créées et manipulées par l'homme). Notons qu’il est important de mettre en place une charte d’entreprise qui responsabilise les collaborateurs vis-à-vis de la valeur de chaque donnée.
Malheureusement, le manque de personnes formées aux technologies du Big Data retarde aujourd’hui considérablement l’implantation de ces technologies en entreprise. Alors que les grands cabinets prédisent une réelle pénurie de ces « moutons à 5 pattes » à l’horizon 2018, l’anticipation du besoin des entreprises en Data Scientists et la création de cursus universitaires adaptés semblent être à l’ordre du jour.



Dans la même rubrique :