Les nouvelles solutions d'intégration des données de Syncsort proposent une approche plus intelligente de l'ETL sur Hadoop


Rédigé par Communiqué de Syncsort le 22 Mai 2013

Les deux nouvelles offres pour Hadoop et les innovations intégrées dans la technologie DMX apportent les avantages de l'amélioration de l'ETL sur Hadoop et un renforcement d'Hadoop grâce à un ETL avancé.



Syncsort, leader mondial des solutions d'intégration de données de type Big Data, annonce le lancement de son offre Spring '13. Elle comprend deux nouveaux produits pour Hadoop et des améliorations apportées à la technologie DMX qui transforment Hadoop en solution ETL robuste, riche en fonctionnalités et facile à utiliser.
Le Big Data incite les entreprises à envisager l'utilisation de la plate-forme Hadoop pour traiter plus de données en moins de temps et à moindre coût, mais Hadoop n'est pas encore une solution ETL complète. Les deux nouvelles offres de Syncsort pour Hadoop, DMX-h ETL Edition et DMX-h Sort Edition, ont été conçues pour renforcer Hadoop en réunissant toutes les fonctionnalités nécessaires pour offrir une solution ETL d'entreprise. Comparativement aux outils ETL générateurs de code qui ne sont pas natifs, ces produits sont plus faciles à utiliser et optimisent la performance des nœuds. Par ailleurs, les améliorations apportées à la technologie DMX en termes de performances et de connectivité élargissent son utilisation par les clients et les partenaires.
« L'analyse des données Big Data est essentielle pour permettre à nos clients de rester compétitifs, mais l'avalanche d'informations submerge les architectures d'intégration de données traditionnelles. La plupart des outils exigent trop de codes et de ressources, ce qui aboutit à des coûts trop élevés », déclare Josh Rogers, vice-président directeur du pôle intégration de données de Syncsort. « Avec nos nouvelles éditions DMX, nous renforçons Hadoop par l'apport de fonctionnalités ETL et de tri transparentes et puissantes. L'ETL sera également stimulé par l'exploitation de la puissance de la plate-forme Hadoop pour faire évoluer le traitement de base des données de type Big Data », ajoute-t-il.
Les nouvelles solutions DMX-h tirent parti de la récente contribution de Syncsort à Apache Hadoop, qui offre un niveau d'intégration native hors pair pour fournir les meilleures fonctions d'intégration de données et d’accélération du tri pour les distributions d'Apache Hadoop.
Principales caractéristiques de DMX-h ETL :
• Architecture plus intelligente : le moteur ETL de DMX-h est le seul à s'exécuter en mode natif dans MapReduce, ce qui optimise la performance des nœuds.
• Développement plus intelligent : ETL sur Hadoop sans programmation. Les développeurs peuvent utiliser une interface Windows conviviale et effectuer un déploiement dans Hadoop en toute transparence.

• Productivité plus intelligente : les « accélérateurs d'applications », bibliothèque de modèles prédéfinis, aident les développeurs à accélérer l'implémentation de l'ETL sur Hadoop.
• Connectivité plus intelligente : étend l'accès et la distribution de toutes les données, y compris du mainframe.
• Solution plus économique : l'association d'une architecture, d'un développement, d'une connectivité et d'une productivité plus intelligentes assure des résultats plus rapides à un coût infiniment inférieur à celui d’autres solutions.
Résultats des bancs d'essai
Les bancs d'essai réalisés récemment par Syncsort mettent en évidence les gains de performance et d'efficacité sur Hadoop lors de l'utilisation de DMX-h. Plus important encore, les résultats dévoilent un débit très prévisible et durable même lorsque les volumes de données augmentent. Avec le banc d'essai TeraSort, DMX-h Sort Edition a atteint un débit constant supérieur à 100 Mo/s par nœud, soit plus du double de celui du moteur de tri natif d'Hadoop (45 Mo/s par nœud). De même, DMX-h ETL Edition a atteint un débit constant supérieur à 255 Mo/s par nœud, soit une vitesse jusqu'à 2,5 fois supérieure à celle de Pig lors de l'agrégation de 2 To de données de journaux Web. Dans les deux cas, les tests ont été exécutés sur des volumes de données de 500 Go à 2 To. Tandis que les autres solutions telles que le tri natif d'Hadoop et Pig atteignent un point de saturation à partir duquel le débit commence à décliner (à environ 500 Go de données), DMX-h offre un débit constant et prévisible de 500 Go à 2 To. Les implications sont énormes pour les entreprises, car elles peuvent dimensionner plus efficacement leur infrastructure Hadoop, optimiser sa fiabilité et parvenir à une structure de coûts plus prévisible parallèlement à la croissance des données de type Big Data.
Commentaires
« Hadoop réduit la structure de coûts du traitement des données à grande échelle, mais le déploiement d'Hadoop au niveau de l'entreprise n'est pas gratuit et les coûts importants liés au matériel et la productivité informatique risquent de réduire le retour sur investissement », souligne Evan Quinn, analyste, Enterprise Strategy Group. « L'offre Spring ’13 de Syncsort fournit des fonctionnalités hors pair dans Hadoop pour optimiser les économies potentielles. Elle fournit la meilleure technologie ETL à un prix en rupture avec le marché de l'intégration de données et plus conforme à la structure de coûts des solutions open source », ajoute-t-il.
« Dans notre système de gestion des balises, nous facilitons un grand nombre d'interactions entre les marketers et leurs fournisseurs. Nous pouvons ainsi voir le parcours complexe d'un consommateur avant l'achat. Cela implique le traitement d'une énorme quantité de données. Pour être compétitifs, nous devons convertir la grande quantité de données collectées lors du parcours d’achat l'achat par notre plate-forme en informations exploitables, permettant aux marketers et à leurs fournisseurs de prendre des décisions », déclare Ave Wrigely, directeur technique de TagMan. « Les nouveaux produits DMX de Syncsort offrent une approche exclusive plus rationnelle qui sera désormais moins axée sur le code. Elle permet d'utiliser une interface graphique pour collecter, nettoyer et distribuer des informations à l'intérieur et à l'extérieur d'Hadoop. Cette nouvelle approche réduit le temps et les ressources nécessaires pour préparer des données de type Big Data pour leur analyse et leur visualisation, tout en offrant une flexibilité optimale», ajoute-t-il.
« Cloudera perçoit l'ETL comme l'un des principaux exemples d'utilisation d'Hadoop. L'ETL est essentiel dans le cadre de notre mission, à savoir optimiser la valeur des données de type Big Data », déclare Amr Awadallah, directeur technique de Cloudera. « Les nouvelles offres DMX-h de Syncsort apportent à nos clients communs des fonctionnalités d'intégration de données et ETL essentielles, qui simplifient les
déploiements ETL tout en assurant le traitement efficace des données en mode natif sur Hadoop. La version CDH 4.2 inclut la contribution de Syncsort à Apache Hadoop, qui embarque la phase de tri, active DMX-h et élargit les exemples d'utilisation sur Hadoop », ajoute-t-il.
Évaluation de DMX-h ETL
Une version d'évaluation gratuite de DMX-h ETL est actuellement disponible. Elle contient tout ce dont vous avez besoin et ne nécessite pas la création de votre propre cluster Hadoop. Vous y trouverez une machine virtuelle Linux avec Cloudera CDH 4.2 et DMX-h ETL Edition préinstallés, des accélérateurs d'applications et des exemples de données.



Dans la même rubrique :