traduction d’un article de BLOOR Research publié en mars 2011
Ecrit par: Philip Howard
Research Director – Data Management
Bloor Research
Il y a un nombre de points importants. Le premier est que la technologie a été développée à l’origine pour tourner sur les Mainframes dans les années 1970. A cette époque, vous deviez utiliser les ressources avec parcimonie et tirer des axes d’amélioration des performances de chaque bit de mémoire accessible. Cette frugalité a été conservée dans le produit actuel (qui tourne sur toutes les plates-formes majeures). Par exemple, par défaut, DM Express utilise 15% de la mémoire disponible, quelle que soit la plate-forme. En comparaison les autres outils prennent généralement la totalité de la mémoire disponible du système. Dans la même idée, le produit accède directement aux disques durs des sources et cibles plutôt que de passer par le système d‘exploitation, évitant ainsi toute charge additionnelle lors des accès.
Deuxième point, et différentiateur unique majeur dans l’intégration de données, le produit est construit autour d’un optimiseur, à la manière des bases de données. Bien sûr, cela n’a de sens que si vous avez plusieurs manières d’atteindre les mêmes résultats. La plupart des ETL et plates-formes d’intégration de données n’ont que très peu d’algorithmes pour réaliser des jointures et des tris, par exemple. En conséquence on peut argumenter qu’ils n’obtiendraient pas d’amélioration des performances avec un optimiseur, puisque ses choix seraient limités. Syncsort, d’un autre côté, dispose de plus de 30 algorithmes de tris et un nombre similaire d’algorithmes de jointures et autres transformations. L’optimiseur crée un « plan de transformation » comme celui d’une base de données crée un « plan d’exécution de requête ». De plus, l’optimiseur observe les mouvements de données pendant qu’ils ont lieu et, s’il trouve que les algorithmes utilisés ne sont pas optimaux, il peut alors changer dynamiquement son plan de transformation.
Je pourrais continuer mais il est suffisant de dire que DM Express est extrêmement efficient et, pour les chargements massifs, probablement le produit le plus rapide sur le marché. Mais l’efficacité (i.e. une meilleure utilisation des ressources et donc des coûts réduits) et performance ne sont pas tout, même si c’est déjà beaucoup.
Si nous revenons à la discussion sur l’optimiseur, l’autre gros avantage qu’il apporte (avec les algorithmes qui l’accompagnent) est que le moteur se règle automatiquement. Cela veut dire que vous n’avez pas à constamment tuner vos processus ETL, et en conséquence vos développeurs ont besoin de passer moins de temps à maintenir les processus existants et peuvent passer plus de temps à répondre aux demandes métiers de nouvelles fonctionnalités et capacités.
Finalement, je dirai quelque chose du positionnement de Syncsort. Vous pourriez penser que c’est un concurrent direct pour Informatica ou IBM et dans certains cas cela peut être vrai. Cependant, il peut aussi être considéré comme complémentaire à ces produits. De nombreuses entreprises ont fait des investissements significatifs dans les plates-formes IBM ou Informatica, les utilisant par exemple pour des rapports B2B, ou utilisant leurs outils de découverte ou de qualité des données. Syncsort n’est pas sur ces marchés mais propose le support de métadonnées approprié pour agir comme un moteur de mouvement de données pour ces environnements. Vous pouvez continuer à développer vos transformations avec Informatica, mais utiliser DM Express pour déplacer les données. Supportant cela, Syncsort positionne DM Express comme un Accélérateur d’Intégration de Données. Il l’est à l’évidence.
Ecrit par: Philip Howard
Research Director – Data Management
Bloor Research
Il y a un nombre de points importants. Le premier est que la technologie a été développée à l’origine pour tourner sur les Mainframes dans les années 1970. A cette époque, vous deviez utiliser les ressources avec parcimonie et tirer des axes d’amélioration des performances de chaque bit de mémoire accessible. Cette frugalité a été conservée dans le produit actuel (qui tourne sur toutes les plates-formes majeures). Par exemple, par défaut, DM Express utilise 15% de la mémoire disponible, quelle que soit la plate-forme. En comparaison les autres outils prennent généralement la totalité de la mémoire disponible du système. Dans la même idée, le produit accède directement aux disques durs des sources et cibles plutôt que de passer par le système d‘exploitation, évitant ainsi toute charge additionnelle lors des accès.
Deuxième point, et différentiateur unique majeur dans l’intégration de données, le produit est construit autour d’un optimiseur, à la manière des bases de données. Bien sûr, cela n’a de sens que si vous avez plusieurs manières d’atteindre les mêmes résultats. La plupart des ETL et plates-formes d’intégration de données n’ont que très peu d’algorithmes pour réaliser des jointures et des tris, par exemple. En conséquence on peut argumenter qu’ils n’obtiendraient pas d’amélioration des performances avec un optimiseur, puisque ses choix seraient limités. Syncsort, d’un autre côté, dispose de plus de 30 algorithmes de tris et un nombre similaire d’algorithmes de jointures et autres transformations. L’optimiseur crée un « plan de transformation » comme celui d’une base de données crée un « plan d’exécution de requête ». De plus, l’optimiseur observe les mouvements de données pendant qu’ils ont lieu et, s’il trouve que les algorithmes utilisés ne sont pas optimaux, il peut alors changer dynamiquement son plan de transformation.
Je pourrais continuer mais il est suffisant de dire que DM Express est extrêmement efficient et, pour les chargements massifs, probablement le produit le plus rapide sur le marché. Mais l’efficacité (i.e. une meilleure utilisation des ressources et donc des coûts réduits) et performance ne sont pas tout, même si c’est déjà beaucoup.
Si nous revenons à la discussion sur l’optimiseur, l’autre gros avantage qu’il apporte (avec les algorithmes qui l’accompagnent) est que le moteur se règle automatiquement. Cela veut dire que vous n’avez pas à constamment tuner vos processus ETL, et en conséquence vos développeurs ont besoin de passer moins de temps à maintenir les processus existants et peuvent passer plus de temps à répondre aux demandes métiers de nouvelles fonctionnalités et capacités.
Finalement, je dirai quelque chose du positionnement de Syncsort. Vous pourriez penser que c’est un concurrent direct pour Informatica ou IBM et dans certains cas cela peut être vrai. Cependant, il peut aussi être considéré comme complémentaire à ces produits. De nombreuses entreprises ont fait des investissements significatifs dans les plates-formes IBM ou Informatica, les utilisant par exemple pour des rapports B2B, ou utilisant leurs outils de découverte ou de qualité des données. Syncsort n’est pas sur ces marchés mais propose le support de métadonnées approprié pour agir comme un moteur de mouvement de données pour ces environnements. Vous pouvez continuer à développer vos transformations avec Informatica, mais utiliser DM Express pour déplacer les données. Supportant cela, Syncsort positionne DM Express comme un Accélérateur d’Intégration de Données. Il l’est à l’évidence.