Les données semi-structurées semblent faciles à comprendre pour un humain, mais nécessitent un petit travail d’adaptation avant d’être comprises par un ordinateur.
Une ligne d’adresse par exemple : 25 rue du Général de Gaulle. Elle est parfaitement comprise par l’humain, qui saura la retrouver en ville. Elle est en réalité composée de trois éléments : le numéro, le type de voie, et le nom de la voie. Pour classer des données en fonction de l’adresse, il faudra séparer ces trois éléments : identifier le nom de la voie, séparer les « rue » et « avenue » du Général de Gaulle, puis classer par ordre de numéro. Ces étapes supposent de transformer les données semi-structurées de la ligne d’adresse, en une suite de trois données structurées (voir ce terme).
Autre exemple, un tweet. Envoyé sur Twitter, chaque tweet comprend des données structurées comme l’identifiant de l’émetteur du tweet, la date d’envoi, le nombre de followers de l’émetteur, etc. Mais il contient également des champs non structurés, comme le texte du tweet en lui-même, qui sur 280 caractères permet de partager des idées… non structurées. Un tweet est un autre exemple d’une donnée semi-structurée.
Voir aussi : Donnée (Data), Donnée multi-structurée, Donnée structurée