Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Talend Data Preparation décharge l’informatique de la préparation des données


Rédigé par le 16 Février 2016

Talend a annoncé la semaine dernière un nouvel outil, qui vient compléter sa gamme de gestion des données. Il s’agit d’un logiciel d’aide à la préparation (nettoyage, qualité, homogénéité) des données : Talend Data Preparation. Il sera disponible officiellement au deuxième trimestre 2016, mais vous pouvez en tester la version open source dès aujourd’hui.



Le développement de la BI en libre service a multiplié les besoins de préparation des données en vue d’être analysées. Des outils comme Tableau ou Qlik ont été conçus pour mettre des forme des données déjà préparées. La manipulation des détails d’un jeu de données n’est pas leur point fort, même si au fur et à mesure des versions, leurs éditeurs ont ajouté certaines fonctions. Résultat, bien souvent, les utilisateurs s’en remettent aux services informatiques, en leur demandant de préparer les données. Ces derniers rechignent parfois (j’ai entendu “souvent” chez certains grands comptes) à la tâche. On les a dépossédé de la construction des rapports, analyses et tableaux de bord, maintenant pris en charge par les utilisateurs d’affaires; mais ces derniers en revanche, sont bien contents de leur laisser la basse besogne, celle bien ingrate qui consiste à nettoyer et préparer les données en vue de leur analyse.
Toutes proportions gardées, la préparation des données c’est un peu l’épluchage des pommes de terre; quand la construction des graphiques d’analyse, est l’équivalent du dressage de l’assiette par le Chef.

Talend, dont les outils étaient jusqu’à présent réservés à des utilisateurs avertis, se lance donc sur le marché de la préparation des données en libre-service; avec un message clair : libérer le service informatique de la tâche de préparation des jeux de données.

Talend Data Preparation est disponible en open source, pour PC et Mac

Talend Data Preparation est déjà disponible, en version locale, installable sur PC et sur Mac. Félicitations à Talend - tout comme Tableau en a déjà pris conscience il y a trois ans - pour avoir compris que le Mac est aujourd’hui une plate-forme analytique très utilisée par une catégorie de professionnels. Et Talend Data Preparation est gratuit, open source comme Talend s’y engage toujours. Bien sur, une version commerciale viendra par la suite, vendue et non offerte, avec des fonctions supplémentaires, en particulier pour s’intégrer en entreprise dans un environnement de production. Mais avec cette version gratuite, dont on nous assure qu’elle restera gratuite et continuera d’évoluer, Talend fait un beau cadeau à ceux qui doivent nettoyer au quotidien des fichiers de données.

Le principe est simple, vous chargez dans l’outil un fichier de données, et il est ensuite présenté à l’écran comme dans un tableur.
Talend Data Preparation va commencer par l’analyser. Il va par exemple en haut de chaque colonne, indiquer par un code couleur, vert, orange ou rouge, la part des lignes dont la donnée est de bonne, moyenne ou mauvaise qualité.
Les fonctions ne manquent pas pour automatiser l’harmonisation des données.
Vous avez une colonne “nom” et une colonne “prénom” ? Parfois certains clients saisissent dans le mauvais sens, le nom à la place du prénom. A l’aide d’un dictionnaire, Talend va repérer que John est le prénom et Doe le nom, et intervertir. Ou plutôt proposer d’intervertir, car Talend Data Preparation ne vous oblige à rien. Talend propose, l’utilisateur dispose.
Autre petite astuce, l’harmonisation des majuscules et minuscules dans les noms; la suppression des espaces redondants; la création d’agrégats; et beaucoup d’autres.
Toutes ces fonctions peuvent être regroupées dans un script, si vous avez de manière régulière à corriger le même fichier.

Franchement, en 15’ vous aurez compris le principe et pris possession de l’outil !

De Talend à Tableau en un clic

Une fois votre fichier propre et prêt à être analysé, vous pouvez le ré-exporter en CSV par exemple, mais Talend Data Preparation propose aussi de créer directement un fichier Tableau, le fameux .TDE en utilisant une API fournie par Tableau. Attention, il semble que cet export ne fonctionne pas encore sur Mac, mais Tableau a livré récemment son API sur Mac et Talend va pouvoir développer cet export également.

Disponible au deuxième trimestre, en même temps que la version 6.2 de Talend Studio, Data Preparation en deviendra un des composants. Les jeux de données pourront être partagés, le logiciel installé sur un serveur, des droits affectés aux utilisateurs, etc.
Mais pour l’instant, l’éditeur n’annonce aucun prix. Il faudra patientier. Attention également le produit n’est disponible pour l’instant qu’en version anglaise; la version française viendra par la suite. On surveillera alors la compatibilité des dictionnaires en français et en anglais. Reconnaître John Doe c’est bien, mais reconnaître Jean Dupont, ce sera également nécessaire.




Commentaires

1.Posté par François Pelletier le 16/02/2016 03:21
Excellent, j'essaie ça. Ça me semble de la même trempe que OpenRefine alors ça a du potentiel.

2.Posté par Jean-Michel Franco le 16/02/2016 14:27
Bien vu, Philippe,

Petite précision sur la capacité de Talend Data Preparation à parler français (même s'il est vrai qu'il n'y a pas d'accent dans son nom) :
- le dictionnaire des prénoms inclut les prénoms français, donc il reconnaîtra Jean autant que John.
- Parmi les autres catégories sémantiques, voici quelques exemples de dictionnaires français et/ou francophones : adresses, villes, départements et régions françaises, pays, jours de la semaine, mois, langues, animaux

Il est aussi utile de rappeler que puisque c'est un outil Open Source, on peut l'enrichir. Dans l'avenir, il y a aura d'ailleurs la capacité de définir ses propres dictionnaires au travers d'une interface graphique, afin que Talend Data Preparation puisse parler le langage de telle ou telle entreprise.

Petite anecdote pour terminer . Un contrôleur de gestion anglo-saxon a suggéré que l'on puisse désactiver certains dictionnaires lorsqu'ils ne se sont pas pertinents face au contexte. En effet, dans cette entreprise 80% des codifications utilisées pour identifier les cost centers matchent avec des département français. Par défaut Talend Data Preparation suggère ce type de données lors de la phase d'auto-découverte... comme quoi, il est capable de porter haut et fort ses origines francophones :-)

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store