Trifacta v4.0 étend la préparation de données pour tous les utilisateurs, toutes les données et tous les clouds


Rédigé par Communiqué de Trifacta le 20 Septembre 2016

La dernière version du leader du marché améliore l’expérience utilisateur, accroit les performances, et étend les connectivités ainsi que le support des déploiements dans le cloud.



Trifacta, spécialiste du data wrangling*, annonce aujourd’hui la sortie de Trifacta v4. Cette dernière mouture capitalise sur l’approche mainte fois primée de la solution de data wrangling avec des fonctionnalités spécifiquement conçues pour couvrir une typologie étendue d’utilisateurs, plus de sources de données et un déploiement étendu d’environnements cloud.

« Nous constatons une forte croissance de la demande pour des solutions qui mettent la préparation de données entre les mains d’utilisateurs métiers ; ceux-là même qui comprennent le mieux les besoins et les exigences en analyse de données. Trifacta s’est bâti une solide réputation sur un marché de la préparation de données en libre-service qui croît particulièrement rapidement. Trifacta continue clairement de se démarquer comme le prouve à nouveau la version 4. Rendre plus facile et plus largement disponible la capacité de data wrangling sur plus de sources de données et pour des déploiements plus larges est critique pour son adoption en entreprise », explique Stewart Bond, research director, IDC.

La sortie de la v4 de Trifacta s’accompagne de Builder, un nouvel assistant qui guide les utilisateurs à travers les étapes du data wrangling. Elle embarque également le moteur de calcul Photon qui augmente la taille des données que les utilisateurs peuvent traiter à la volée dans Trifacta. Photon est un moteur spécialement optimisé pour les jeux de données ne nécessitant pas un traitement distribué. La version 4 étend aussi le support pour le déploiement de Trifacta dans des environnements Cloud comme Amazon Web Services, Google Cloud Services et Microsoft Azure tout en permettant aussi de se connecter directement à une plus grande variété de sources de données comme Microsoft SQL Server, MySQL, Oracle, PostgreSQL et Teradata.

« Chez Nordea Bank, nous nous efforçons constamment d'améliorer la rapidité, la précision et le niveau de confiance dans nos données pour les parties prenantes internes ou externes. La v4 de Trifacta va nous permettre d’impliquer plus efficacement nos experts métiers en matière de prise de décision. Cela nous a aussi permis de réduire fondamentalement nos délais de mise sur le marché ainsi que nos coûts de gestion des données tout en augmentant considérablement la qualité de nos produits », rapporte Alasdair Anderson, executive vice president of data engineering, Nordea Bank.

Les nouveautés de Trifacta v4

Une expérience utilisateur améliorée
L’une des améliorations au cœur de la v4 de Trifacta est l’enrichissement de l’expérience utilisateur en matière de data wrangling en proposant une nouvelle approche pour définir les étapes de préparation de données. L’ajout de Builder dans l’interface Trifacta augmente les moyens des utilisateurs afin de préparer leurs données sans passer par une phase de scripts. Builder est conçu pour guider simplement les utilisateurs dans la réalisation de tâches complexes de data wrangling. Builder offre ainsi une plus grande facilité d'utilisation que ce soit sous forme de suggestions de transformation de données ou de l'utilisation d’un menu déroulant pour construire les étapes de préparation en partant de zéro. Avec Builder, le processus de préparation des données est donc radicalement simplifié en découpant intelligemment chaque étape individuelle de manipulation de données pour faciliter l’expérience des utilisateurs non-techniques à traiter des données simples aussi bien que complexes.

« Chez Sanofi, une priorité stratégique est l’amélioration du traitement des données par nos équipes techniques en leur proposant des moyens plus concis pour leur efficacité opérationnelle et la réduction des risques liés à la sécurité. Trifacta fait partie intégrante de notre succès en donnant à notre équipe de gestion de l’infrastructure (Infrastructure Management Team) la capacité de gérer des jeux de données massifs et divers, et de les convertir au format nécessaire à nos analyses. Nous sommes donc ravis de la sortie de la v4 de Trifacta et en particulier de Builder qui va permettre à un plus grand nombre d’utilisateurs Sanofi de préparer intuitivement des données grâce à un processus simple et guidé. Nous espérons voir de plus en plus de départements et de groupes adopter Trifacta pour la préparation de leurs données alors que nous le rendons disponible en service à travers nos plateformes analytiques », explique Jason Stoute, senior manager of infrastructure architecture, Sanofi.

La v4 de Trifacta va aussi plus loin en mêlant visualisation de données et machine learning afin de guider les utilisateurs dans leurs tâches courantes de data wrangling. Grâce au profilage de format (Pattern Profiling), les utilisateurs peuvent visualiser et détecter automatiquement des motifs communs et anormaux au sein de chaque colonne. L’ajout de jointure à logique flou (Fuzzy Join), permet aux utilisateurs de combiner des sources de données variées par rapprochement de valeurs similaires mais non-exactes. La v4 introduit également la généalogie de colonne (Column Lineage) , une technique de visualisation inédite afin de présenter les origines et relations entre chaque attributs ou colonnes. Enfin avec l’opérationnalisation et la planification, la v4 permet aux utilisateurs finaux de définir et gérer eux-mêmes les processus de data wrangling de bout en bout en totale autonomie.

Amélioration de la performance et de montée en charge
La dernière version de Trifacta améliore aussi les performances et la montée en charge des traitements de données gérés directement par le moteur interne de Trifacta. Trifacta v4 fournit un moteur de traitement de données en mémoire (in-memory) optimisé pour les jeux de données qui n’ont pas besoin d’être distribués. La disponibilité du moteur de calcul Photon permet aux utilisateurs de traiter à la volée un volume de données 100 fois supérieur et directement depuis l’interface utilisateur tout en conservant une expérience fluide et un résultat immédiat ; ces deux aspects étant au cœur de l’expérience utilisateur Trifacta.

Concernant les fichiers, Photon permet aux utilisateurs de transformer à la volée des jeux de données entiers depuis l’application, et s’intègre de manière transparente avec l’architecture d’exécution intelligente de Trifacta, complétant ainsi les moteurs de traitement Spark et MapReduce. Photon a été spécifiquement conçu pour étayer Trifacta et pour fournir des performances et des capacités incomparables en matière de traitement de données par rapport à d’autres moteurs de calcul interactifs. Dans le cadre de la v4, Trifacta a également amélioré le support pour les opérations de transformation à grande échelle, tirant ainsi parti de l’infrastructure de traitement de données issu de Spark en ajoutant le support de Spark 2.0.

« En tant qu’analyste, je passe beaucoup de temps à parcourir et épurer les jeux de données, à lancer des analyses et à examiner les résultats pour trouver la meilleure solution au problème qui m’est posé. Le processus est extrêmement important dans mon procédé. Les retards et les interruptions peuvent se traduire par de nombreuses heures perdues sur un projet. Avec Trifacta, le processus de data wrangling est transparent, ce qui me permet d’être plus productif et efficace. L’ajout de Photon améliore encore ce qui était déjà jusque-là une bonne expérience utilisateur en nous permettant de travailler de manière interactive avec de plus grands volumes de données et avec une expérience qui reste inchangée », explique Mike Riegling, supply chain data analyst, PepsiCo.

Extension des possibilités de déploiements Cloud et de la connectivité
Avec la v4, les clients profitent d’un plus grand support pour le déploiement de Trifacta dans le cloud grâce à l’intégration dans Amazon Web Services, Google Cloud Platform et Microsoft Azure. En ce qui concerne Amazon Web Services, Trifacta fournit une intégration avec Amazon S3 et Redshift en tant que sources d’entrée et de sortie, ainsi que le déploiement sur EC2. Trifacta v4 supporte aussi l’écosystème Google Cloud Platform et donc le support de Google Cloud Storage et de BigQuery en tant que sources d’entrée et de sortie, le traitement de données via Google DataFlow et le déploiement sur Google Compute Engine. La plateforme cloud Microsoft Azure est également supportée dans la v4. Trifacta ajoute aussi le support pour les déploiements sur Microsoft Azure HDI et peut intégrer des données depuis Azure Blob Storage.

« Nous voyons une forte augmentation de l’adoption dans les entreprises de Microsoft Azure pour les traitements analytiques critiques. Nos clients nous challengent régulièrement sur leurs besoins en matière de création de processus pour nettoyer et combiner des données diverses au sein d’Azure Services à des fins d’analyses. Avec l’ajout du support de Trifacta et l’intégration de Microsoft Azure Storage Blob et de HDI au sein de leur v4, nos clients seront désormais en mesure d’accélérer leurs processus analytiques grâce à la meilleure solution cloud de data wrangling », commente Tiffany Wissner, head of big data marketing, Microsoft.

Trifacta a également étendu son support de création de connexions directes vers des sources de données standard comme Microsoft SQL Server, MySQL, Oracle, PostgreSQL et Teradata. A la différence des approches qui forcent les utilisateurs à faire des copies de leurs données avant l’étape de préparation, Trifacta crée une connexion en flux sur les données (data streaming) depuis des sources externes afin de les incorporer directement dans le processus de data wrangling. La v4 inclut également la version initiale d’une API de connectivité de Trifacta, donnant aux utilisateurs et aux partenaires la possibilité d’intégrer Trifacta de manière transparente avec des données et services externes.

« La v4 de Trifacta est la plus importante depuis la création de l’entreprise », explique Adam Wilson," CEO, Trifacta. « Depuis le début, notre but a été de fournir une solution de préparation de données en libre accès qui aide les clients à faire le lien avec leur stratégie Big Data et en trouver une valeur commerciale. En tant que leader du data wrangling, nous sommes ravis de proposer toutes les innovations présentes dans cette v4 à plus de 3 500 entreprises qui utilisent actuellement nos produits ».

Télécharger une description de la solution Trifacta v4 afin d’en apprendre plus sur les nouvelles fonctionnalités.

*Le data wrangling est le processus de préparation et de manipulation de n’importe quel format de donnée afin de la rendre consommable par l’utilisateur final à des fins d’analyse.



Dans la même rubrique :