Le développement de la BI en libre service a multiplié les besoins de préparation des données en vue d’être analysées. Des outils comme Tableau ou Qlik ont été conçus pour mettre des forme des données déjà préparées. La manipulation des détails d’un jeu de données n’est pas leur point fort, même si au fur et à mesure des versions, leurs éditeurs ont ajouté certaines fonctions. Résultat, bien souvent, les utilisateurs s’en remettent aux services informatiques, en leur demandant de préparer les données. Ces derniers rechignent parfois (j’ai entendu “souvent” chez certains grands comptes) à la tâche. On les a dépossédé de la construction des rapports, analyses et tableaux de bord, maintenant pris en charge par les utilisateurs d’affaires; mais ces derniers en revanche, sont bien contents de leur laisser la basse besogne, celle bien ingrate qui consiste à nettoyer et préparer les données en vue de leur analyse.
Toutes proportions gardées, la préparation des données c’est un peu l’épluchage des pommes de terre; quand la construction des graphiques d’analyse, est l’équivalent du dressage de l’assiette par le Chef.
Talend, dont les outils étaient jusqu’à présent réservés à des utilisateurs avertis, se lance donc sur le marché de la préparation des données en libre-service; avec un message clair : libérer le service informatique de la tâche de préparation des jeux de données.
Toutes proportions gardées, la préparation des données c’est un peu l’épluchage des pommes de terre; quand la construction des graphiques d’analyse, est l’équivalent du dressage de l’assiette par le Chef.
Talend, dont les outils étaient jusqu’à présent réservés à des utilisateurs avertis, se lance donc sur le marché de la préparation des données en libre-service; avec un message clair : libérer le service informatique de la tâche de préparation des jeux de données.
Talend Data Preparation est disponible en open source, pour PC et Mac
Talend Data Preparation est déjà disponible, en version locale, installable sur PC et sur Mac. Félicitations à Talend - tout comme Tableau en a déjà pris conscience il y a trois ans - pour avoir compris que le Mac est aujourd’hui une plate-forme analytique très utilisée par une catégorie de professionnels. Et Talend Data Preparation est gratuit, open source comme Talend s’y engage toujours. Bien sur, une version commerciale viendra par la suite, vendue et non offerte, avec des fonctions supplémentaires, en particulier pour s’intégrer en entreprise dans un environnement de production. Mais avec cette version gratuite, dont on nous assure qu’elle restera gratuite et continuera d’évoluer, Talend fait un beau cadeau à ceux qui doivent nettoyer au quotidien des fichiers de données.
Le principe est simple, vous chargez dans l’outil un fichier de données, et il est ensuite présenté à l’écran comme dans un tableur.
Talend Data Preparation va commencer par l’analyser. Il va par exemple en haut de chaque colonne, indiquer par un code couleur, vert, orange ou rouge, la part des lignes dont la donnée est de bonne, moyenne ou mauvaise qualité.
Les fonctions ne manquent pas pour automatiser l’harmonisation des données.
Vous avez une colonne “nom” et une colonne “prénom” ? Parfois certains clients saisissent dans le mauvais sens, le nom à la place du prénom. A l’aide d’un dictionnaire, Talend va repérer que John est le prénom et Doe le nom, et intervertir. Ou plutôt proposer d’intervertir, car Talend Data Preparation ne vous oblige à rien. Talend propose, l’utilisateur dispose.
Autre petite astuce, l’harmonisation des majuscules et minuscules dans les noms; la suppression des espaces redondants; la création d’agrégats; et beaucoup d’autres.
Toutes ces fonctions peuvent être regroupées dans un script, si vous avez de manière régulière à corriger le même fichier.
Franchement, en 15’ vous aurez compris le principe et pris possession de l’outil !
Le principe est simple, vous chargez dans l’outil un fichier de données, et il est ensuite présenté à l’écran comme dans un tableur.
Talend Data Preparation va commencer par l’analyser. Il va par exemple en haut de chaque colonne, indiquer par un code couleur, vert, orange ou rouge, la part des lignes dont la donnée est de bonne, moyenne ou mauvaise qualité.
Les fonctions ne manquent pas pour automatiser l’harmonisation des données.
Vous avez une colonne “nom” et une colonne “prénom” ? Parfois certains clients saisissent dans le mauvais sens, le nom à la place du prénom. A l’aide d’un dictionnaire, Talend va repérer que John est le prénom et Doe le nom, et intervertir. Ou plutôt proposer d’intervertir, car Talend Data Preparation ne vous oblige à rien. Talend propose, l’utilisateur dispose.
Autre petite astuce, l’harmonisation des majuscules et minuscules dans les noms; la suppression des espaces redondants; la création d’agrégats; et beaucoup d’autres.
Toutes ces fonctions peuvent être regroupées dans un script, si vous avez de manière régulière à corriger le même fichier.
Franchement, en 15’ vous aurez compris le principe et pris possession de l’outil !
De Talend à Tableau en un clic
Une fois votre fichier propre et prêt à être analysé, vous pouvez le ré-exporter en CSV par exemple, mais Talend Data Preparation propose aussi de créer directement un fichier Tableau, le fameux .TDE en utilisant une API fournie par Tableau. Attention, il semble que cet export ne fonctionne pas encore sur Mac, mais Tableau a livré récemment son API sur Mac et Talend va pouvoir développer cet export également.
Disponible au deuxième trimestre, en même temps que la version 6.2 de Talend Studio, Data Preparation en deviendra un des composants. Les jeux de données pourront être partagés, le logiciel installé sur un serveur, des droits affectés aux utilisateurs, etc.
Mais pour l’instant, l’éditeur n’annonce aucun prix. Il faudra patientier. Attention également le produit n’est disponible pour l’instant qu’en version anglaise; la version française viendra par la suite. On surveillera alors la compatibilité des dictionnaires en français et en anglais. Reconnaître John Doe c’est bien, mais reconnaître Jean Dupont, ce sera également nécessaire.
Disponible au deuxième trimestre, en même temps que la version 6.2 de Talend Studio, Data Preparation en deviendra un des composants. Les jeux de données pourront être partagés, le logiciel installé sur un serveur, des droits affectés aux utilisateurs, etc.
Mais pour l’instant, l’éditeur n’annonce aucun prix. Il faudra patientier. Attention également le produit n’est disponible pour l’instant qu’en version anglaise; la version française viendra par la suite. On surveillera alors la compatibilité des dictionnaires en français et en anglais. Reconnaître John Doe c’est bien, mais reconnaître Jean Dupont, ce sera également nécessaire.