Intégration 2.0 : quel nouveau souffle pour les ETL


Rédigé par par Philippe NIEUWBOURG le 18 Novembre 2010

Depuis que l’informatique existe et même avant dès l’époque de la mécanographie, il a toujours été question de transformation de données. Une machine existait même à l’époque pour mélanger deux fichiers suivant un caractère commun, l’interclasseuse. Mais sans remonter à cette préhistoire, tout programmeur en simple Basic a connu le développement des « moulinettes ». La manipulation de données s’est professionnalisée avec l’apparition des ETL très utilisés dans les projets décisionnels. Ascential, Informatica, Sunopsis, Integration Services, Talend, Syncsort… pour ne citer que ceux qui me passent par l’esprit à cet instant.



Extraction, transformation, chargement. Ils passent tous par ces trois étapes, et c’est justement ce qu’on leur demande. Comment les choisir ? Les performances, l’ouverture à telle ou telle source de données, la simplicité de paramétrage, le coût, les critères sont nombreux et aucun outil ne sort réellement du lot. Ils parviennent tous à convaincre chacun certains clients.
Ces dernières années l’innovation chez les fournisseurs d’outils d’intégration est passée par trois évolutions :
- le temps réel : ou plus raisonnable la réduction des délais d’intégration et la multiplication de la fréquence de rafraichissement. L’objectif est de répartir le plus rapidement possible vers les applications de destination, les données dès qu’elles ont été modifiées dans une application source. Indispensable dans quelques métiers comme la banque ou la finance de marché, utile dans d’autres comme la distribution ou la téléphonie, et totalement hors de prix pour ceux qui n’en ont pas l’utilité. L’extrême de cette évolution est appelé CDC (Change Data Capture), une technique où l’on n’intègre plus un ensemble de données, mais au fil de l’eau les modifications des données sources dès qu’elles sont détectées.
- Le Master Data Management (MDM), c’est à dire la gestion des données de référence. Evolution de la gestion des méta-données que les ETL savent faire depuis de nombreuses années, le mariage du MDM et de l’intégration de données est logique. Il permet de créer des « hubs » par lesquels transitent toutes les informations et où elles peuvent être référencées. Le mythe du dictionnaire de données unique et toujours à jour est tenace, mais reste un mythe.
- La qualité des données est un des problèmes majeurs auxquels sont confrontées les entreprises face à l’explosion du volume des données traitées. Si l’entreprise a mis en place un de ces « hubs », le moment et le lieu sont idéaux pour vérifier et si nécessaire corriger la qualité des données avant que d’éventuelles erreurs ne se propagent dans le système et ne deviennent incorrigeables. Les outils d’intégration ont donc intégré cette dimension.
Qu’il s’agisse de développement chez les uns, de rachats chez les autres ou de simples accords de partenariat, les outils d’intégration couvrent aujourd’hui plutôt bien les trois domaines d’extension cités ci-dessus.

Mais alors quel potentiel d’évolution et d’innovation leur restent-ils ? Dans quelles directions les départements R&D des éditeurs de ce marché vont-ils regarder ? Je me suis posé la question et tenté d’en savoir plus. Intéressant de constater tout d’abord que ce marché des outils d’intégration n’est pas très transparent. Les plans de développement ne sont pas ou très peu publiés. Les prochaines versions sont annoncées au dernier moment. Corollaire positif, on est bien loin du « vaporware » de certains éditeurs qui démontrent une Beta presque un an avant d’envisager la disponibilité du produit (suivez mon regard…). Difficile donc de savoir sur quoi travaillent les équipes de développement des grands éditeurs d’ETL. Mais je pars de l’axiome qu’ils travaillent… aux nouvelles versions.
Si par hasard ils manquaient d’idées, j’ai identifié deux sujets sur lesquels ils pourraient se pencher : l’intégration en mémoire, et le « cloud to cloud ». J’aimerais ici les partager avec vous afin d’ouvrir le débat.

Des outils d’intégration adaptés aux nouvelles bases de données « in memory »

Même si SAP en convient lui-même, le remplacement des bases de données opérationnelles relationnelles par les architectures en cours de développement de bases de données de nouvelles générations, n’est pas pour demain. Il faudra une dizaine d’années avant que ces nouveaux standards démontrent leur efficacité à traiter du transactionnel, et s’imposent dans les entreprises. Mais dans le domaine du décisionnel, cette évolution est déjà en cours. Qu’il s’agisse des Teradata, Netezza, Vertica, Sybase IQ, QlikView… ou du projet HANA chez SAP qui fait couler beaucoup d’encre électronique ces dernières semaines, on sent bien que de nouveaux modèles voient le jour. L’augmentation des volumes, de la fréquence des analyses et de leur profondeur… toutes ces évolutions comportementales conduisent les utilisateurs à rechercher de nouveaux outils plus performants. Mais il faut bien les alimenter. Les outils actuels d’intégration semblent adaptés à ces nouvelles bases, mais elles sont encore peu mises sous pression. Le jour où elles se généraliseront où les volumes augmenteront, tout comme les requêtes des utilisateurs analystes, les outils d’intégration devront certainement s’adapter. Je n’ai pas vu à ce jour d’éditeur d’outil d’intégration proposer un positionnement adapté à ces nouvelles bases. Quelles fonctions devront évoluer ? Quelle architecture devra être adoptée ?

L’intégration « cloud to cloud »

Le « cloud computing » vous a convaincu ? Parfait. Vous avez commencé la migration de certaines applications vers un cloud privé, d’autres vers un cloud public comme Amazon, Microsoft Azure ou un autre. Au fur et à mesure que vos applications se retrouveront dans les nuages, avez-vous vérifié que vos processus d’intégration ne seront pas en plein brouillard ? Comment ces applications hébergées vont-elles communiquer entre elles. La communication d’un « service » à un autre est plutôt bien encadrée, et votre application de CRM peut sans doute accéder à votre historique comptable en temps réel. Mais si ce n’est pas le cas, et si de multiples interfaces doivent continuer à être réalisées au quotidien pour mettre à jour chaque application avec les données dont elle a besoin... La plupart des outils d’intégration vous proposera tout simplement de descendre de votre nuage, au second comme au premier degré, c’est à dire de rapatrier toutes les données d’un nuage sur votre serveur pour les renvoyer ensuite vers un autre nuage. L’intégration « nuage à nuage » est encore inconnue de la plupart des applications. Cela fait certainement partie des axes de travail des éditeurs d’outils d’intégration pour leurs prochaines versions. Des outils qui vous seront alors proposés également en mode hébergé, vous utiliserez et peut-être paierez en fonction des données migrées ou des processus exécutés. Libre à vous de descendre les données sur votre système local si vous le souhaitez, mais ce ne sera plus une contrainte, juste un choix.
Se poseront tout de même des questions de cadencement, de priorité, de sécurité, d’authentification. Si ma chaîne de traitement suppose la mise à jour nocturne de plusieurs applications, que se passe-t-il si une des interfaces hébergées dans le nuage est en retard sur le planning. En mode hébergé, je contrôle forcément moins bien qu’un système dont je suis le seul utilisateur. Quelles réponses proposeront les fournisseurs ?

Que pensez-vous de ces deux axes ? Hadoop jouera-t-il un rôle clef ? Connaissez-vous des outils d’intégration plus avancés que les autres sur ces deux sujets ? Voyez-vous d’autres sujets de réflexion pour aider les éditeurs d’ETL à innover ?



Dans la même rubrique :