Une donnée non-structurée est une donnée, c’est à dire un élément, représenté d’une manière à en faire un traitement automatisé, qui sert de base à un raisonnement (voir le terme Donnée). Mais une donnée non structurée est impossible à utiliser directement pour un traitement ou une analyse, elle doit d’abord être convertie en données structurées.
Une donnée non structurée, c’est une image, un fichier audio, un texte, une vidéo, etc. Prenons l’exemple d’une image globale de votre magasin pendant l’ouverture. Elle contient des informations intéressantes, le nombre de clients présents dans le magasin, leur sexe, leur tranche d’âge, le rayon dans lequel ils sont, etc. Mais aucune de ces informations n’est directement accessible par l’ordinateur à partir du fichier image. La donnée « image » est une simple suite de 0 et 1, non structurée. Elle n’est pas compréhensible directement par l’ordinateur. C’est la même chose pour le corps d’un email, le rapport d’activité rédigé sous Word, une vidéo de surveillance sur les quais du métro, le bruit enregistré par un capteur sonore à côté d’une machine dans une usine… Tout cela fait partie de la catégorie des données non structurées.
Ces données ne peuvent pas être stockées dans une base de données relationnelle (voir ce terme) qui impose un modèle de données (voir ce terme) et une structure. D’autres outils peuvent en revanche accueillir des données non structurées : les fichiers plats, les bases NoSQL, Hadoop (voir ces termes).
Mais les outils d’analyse et de reporting ne peuvent traiter que des données structurées (voir ce terme), des champs textes, des dates, des nombres. Avant toute analyse, une donnée non structurée doit être transformée en une ou plusieurs données structurées.
Ce sont des algorithmes qui vont identifier et compter, dans l’exemple cité ci-dessus, le nombre de clients présents dans le magasin, leur sexe, leur tranche d’âge, le rayon dans lequel ils sont, etc. Cette phase est la transformation des données non structurées en données structurées. C’est également à cette étape que l’on constatera la qualité des données non structurées importées.
Voir aussi : Donnée (Data), Donnée structurée, Formatage de données (Data Wrangling)