Apparu avec le développement de l’usage des données non structurées, le travail de formatage des données est plus complet que le processus d’alimentation (voir ce terme).
Le processus d’alimentation est essentiellement destiné à extraire, transformer et charger des données structurées. Le processus de formatage de données (également appelé Data Wrangling ou Data Munging), est plus complet, et introduit la notion de transformation de données non structurées (voir ce terme) en données structurées prêtes à être analysées.
En partant de données non structurées, le processus de formatage peut être simple ou complexe. Il peut induire un simple changement de format, une simple agrégation; mais il peut également inclure des algorithmes complexes de création de données structurées à partir d’images, de sons, de textes, ou de vidéos. Les algorithmes qui extraient des connaissances de flux vidéo, comme le comptage de personnes, la reconnaissance faciale ou la détection d’objets et de comportements, peuvent faire partie de cette étape de formatage des données.
Dans le schéma d’architecture d’un système décisionnel, le formatage de données intervient fréquemment en sortie du lac de données (voir ce terme), afin d’alimenter les scientifiques de données (voir ce terme), ou un entrepôt, ou un magasin de données (voir ces termes).
Mentionné dans le magazine Byte dès 1997, le terme de Data Wrangling est réellement connu depuis le milieu des années 2010, quand certains éditeurs tels que Trifacta, l’on utilisé dans leur communication. En 2001, un article indiquait que CNN avait recruté « une douzaine de data wranglers », afin d’extraire de l’information du flux de nouvelles.
Voir aussi : Data Munging, Data Wrangling, Donnée non structurée, Entrepôt de données (Data Warehouse), Lac de données (Data Lake)