Forums, dernières contributions
Datastage : Server ou Parallel Extender Christophe Aviat
Etudiant l'opportunité de clôner une solution décisionnelle déjà existante et basée sur Datastage Server, ma première question est la suivante : indépendamment de la configuration matérielle et de ses possibilités de scalabilité, pour un entrepôt de 10 To (avec une croissance annuelle de 10%) recevant un flux hebdomadaire de 50 Go, est-il raisonnable de clôner une solution basée sur Datastage Server ou ne vaut-il pas mieux envisager d'utiliser Parallel Extender ?
Questions secondaires : 1) la compatibilité ascendante est-elle assurée entre ces deux versions sans re-développer ? 2) peut-on envisager de démarrer avec Datastage Server puis évoluer un jour vers Parallel Extender quand les limites de performance demandée seront atteintes ? Merci. K-loo
Avec une base de 10 To, même si la croissance n'est que de 10 % (ce qui est déjà un gros volume) ou les flux que de 50 Go, a moins que les traitements à faire soient très peu complexe (très peu de transformation, très peu d'agrégation et très peu de contrôle d'intégrité avec l'entrepôt), il semble plus pertinent d'envisager des le début la solution PX.
Pour répondre aux questions secondaires : 1- Il n'y a pas de compatibilité ascendante, il s'agit de deux produits totalement différent (même si l'interface graphique est quasi la même). Il faut donc passer par du re-développement. 2- les 2 moteurs peuvent cohabiter sur une même plate-forme. Il peut-être pertinent selon le contexte de commencer avec Datastage Server et dans l'avenir passer pour les nouveaux développements à Parallel Extender. Soler Gérard
Je confirme les réponses aux questions secondaires; maisj'en ai moi-même une autre : des développeurs formés et ayant pratiqué datastage PX peuvent-ils 'sans nouvelle formation) passer sur datastage server ?
max
pour informations complementaires, les temps de developpement et d optimisation entre les 2 versions Server et PX ne sont pas a negliger.
autant un flux de donnees en DataStage Server peut se faire tres rapidement, autant en PX tu peux compter sur des temps beaucoup plus long et je ne parle meme pas de l optimisation en PX qui necessite de bonnes connaissances et habitudes sur ce produit. pour mon experience, il est beaucoup plus simple de faire des job ETL en Server bien optimises que de developper des jobs ETL en PX. le gain de temps est superieur et les temps de traitement des donnees ne sont pas forcement superieur dans de gros traitements. Yassine
Bonjour,
Pb Technique : je n'arrive pas à me connecter au Host Server. Quelqun aurait une idée de solution ? Merci gbusson
bonjour,
Par expérience j'estime que le ratio temps de développement Server/PX est de 1.5. PX apporte réllement un gain de performances pour des très gros volumes ( + de 10 000 000 d'enregistrements). réponse à max : est ce une coquille? pour des gros traitement ou des petits traitements? Passer de PX à Server est simple, le seul souci réside dans le fait que certaines interfaces sont identiques et qu'on peut parfois mélanger les tehnologies (je pense au transformer) cyrille
Bonjour!!Désolé de ne pas apporter des solutions.
je suis un stagiaire qui doit mettre sur pied une extraction de donnees des systemes de production.novice dans le domaine, j'ai besoin d'aide pour le developpement de mes processus ETL sous datastage server. J'aimerai savoir comment l'utiliser pr le transfert de fichiers d'un serveur FTP.comment ecrit on des routines qui permettent de modifier les fichiers texte complexes pour les rendre utilisables par un sequential file? Merci de bien vouloir m'aider. biba
Bonjour,
J'ai une table en entrée, et je dois enlever les doublons, je dois garder la derniere ligne et rejeter les autres pour les lignes doublons. Seulement le remove duplicate ne permet pas de gérer les rejets. Est ce que qqn a une idée? Merci d'avance gbusson
le transformer, avec des stage variables , est préconisé dans ce cas.
Bkerebel
Bonjour,
pour répondre au 1er post, celui de Christophe Aviat, cloner une solution crée souvent des soucis d'évolution d'1 des env sans que l'autre ne soit impacté.. étudier peut être l'instanciation. ça fonctionne très bien. Vu les volumes, PX sera certainement apprécié, pouvant traiter 30 000 lignes / seconde en cas de bons dévs, voire encore mieux. question 1 : il est à noter que PX et server sont compatibles dans un même sequencer, donc on peut ne développer que la partie très gourmande, et garder le reste avec les dévs en server.. question 2 : même réponse mais bon, toutes ces questions datent... biba : complément à la réponse de gbusson : met un stage variable dans un transformer, et pars du principe que chaque variable sera traitée sequentiellement. ainsi la 2nde attendra que la 1ere soit finie de traiter. si tu met la valeur flux.toto dans la 1ere variable, et flux.toto dans la 2nde variable, tu auras dans ta 2nde variable la valeur de l'enregistrement précédent. ainsi tu peux créer un système de rupture sur une clef donnée et dédoublonner à ta guise Florian
Salut
Tu as trouvé solution à ton problème ? Sylvain
Bonjour,
Une question SVP. Quelle est la principale différence entre datastage PX et TX. On dit aussi datastage server pour le TX ( ex mercator) , est ce bien cela? Le PX serait il plus simplement puissant? et plus chère? l'un est il mieux adapter au datawarehouse et donc serait il plus un ETL et l'autre plus un EAI? Merci pour votre aide Loïc Baspin
Salut,
de mémoire TX est la version DataStage pou du temps réel (à utiliser sur de faibles volumétries). PX est la version Parallel eXtender qui permet de fonctionner en utilsant la notion de parallélisme. Server est la version originale de DataStage. Au delà des différentes opinions (untel est mieux que l'autre), PX est plus intéressant à partir d'une certaine volumétrie (typiquement pour dataware c'est pas mal).A mon avis à classifier en tant qu'ETL.Il est aussi je crois plus cher que Server. La frontière entre EAI (plate forme d'échange/communication entre applications) et ETL peut être floue selon les définitions et les périmètres qu'on leur attribue.A priori TX serait plus 'EAI' que Server ou PX. Joel Da Costa
Salut Loic,
Je confirme l'édition TX de DataStage est la version orientée temps réel et donc EAI. L'édition Server et PX sont orientés ETL. Cdt, Joël Sylvain
merci pour vos réponses. Donc si je comprend bien, pas besoin d'un outil puissant pour faire de l'EAI, car beaucoup moins solicité que pour alimenter un entrepot de donnée?
Et quelles sont les principales différences entre le server et le PX? la notiion de parallélisme? Merci. Antoine
Bonjour
Au vu de l'investissement (+200K€) et de l'importance d'un tel outil (fait partie du socle décisionnel), mieux vaut bien réfléchir à la question et pas seulement sur l'aspect performance. Je vous conseille de solliciter les professionnels du secteur. A ce titre, j'ai vu passer l'annonce d'un séminaire sur les choix d'outils décisionnels. Il vous aidera peut être à avancer dans votre réflexion. Cdt Site de l'evt: http://www.micropole-univers.com/itemAgenda.jsp?sfolder=mug_agenda&lang=fr&eventCode=1722 |