Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Mais, qu’est-ce qu’une machine de données virtuelle


Rédigé par Didier SCHREIBER, Informatica le 30 Août 2013

Tout d’abord, que signifie machine de données virtuelle ? Il s’agit de la version française de Virtual Data Machine, ou VDM en abrégé. Et technologiquement, il s’agit d’un moteur de gestion de données embarquable conçu pour accéder aux données, les agréger et les gérer.



Didier SCHREIBER, Directeur Marketing Europe du Sud chez Informatica
Didier SCHREIBER, Directeur Marketing Europe du Sud chez Informatica
Depuis la création d’Informatica, nous avons toujours eu pour philosophie de séparer les instructions d’intégration de données (qui définissent les logiques métiers à appliquer) et la technologie d’exécution sous-jacente. C’est le message que nous entendons souvent par « métadonnées ». L’expression « basée sur les métadonnées » signifie qu’un développeur n’a pas besoin de connaître les langages C, C++ ou Java pour exécuter des opérations d’intégration de données. Le développeur travaille dans un environnement graphique de développement en utilisant des outils drag and drop pour visualiser comment les données vont passer d’un système A, être associées à des données d’un système B pour finalement être nettoyées et transformées pour être intégrées dans un système C. Au niveau de détail le plus précis du processus de développement, le développeur verra des icônes représentant des jeux de données et des lignes symbolisant les relations entre ces jeux de données, et la description des règles de transformation de ces données tout au long du processus.

Aucune ligne de programmation n’est visible, seulement les métadonnées qui décrivent comment les données seront modifiées tout au long du processus. Au fond, l’idée est qu’une personne qui maîtrise les concepts d’intégration de données puisse, sans pour autant savoir programmer, concevoir des opérations de conversion de données brutes en informations de qualité utiles pour l’entreprise. Ainsi l’utilisation d’outils graphiques a multiplié le nombre de personnes capables de développer des process d’intégration de données et donc « démocratisé » l’intégration de données.

Mais au fil du temps, l’intégration de données est de plus en plus complexe. Ce qui se limitait auparavant à des opérations d’extraction, de transformation et de chargement de données en mode batch inclut désormais la qualité des données, la gestion temps réel, la virtualisation des données et Hadoop. De plus, les process d’intégration peuvent être déployés en local ou dans le cloud. La complexification de l’intégration de données a impliqué la mise en œuvre d’approches mixtes incluant souvent l’usage de l’ensemble de ces possibilités, alors que les combinaisons de technologies sous-jacentes continuent à se multiplier.

Pendant ce temps-là, Informatica a continué à dissocier l’environnement de développement de la technologie sous-jacente de déplacement et de transformation des données. En quoi cette séparation est-elle si importante ? Elle est importante dans la mesure où au fur et à mesure de l’apparition de nouvelles approches de l’intégration de données, de nouveaux modèles telles que le SaaS (Software as a Service), de nouvelles technologies comme Hadoop et de nouveaux langages comme Pig et Hive (sans compter les langages qui restent à inventer), les développeurs de process d’intégration de données n’ont pas besoin de maîtriser les détails de ces nouvelles technologies pour en tirer parti. De plus, la vitesse d’évolution de ces technologies sous-jacentes s’accélère. Ainsi, et malgré l’accélération de ces changements, la séparation du développement et du déploiement permet aux utilisateurs finaux de continuer à concevoir et développer leurs process en utilisant la même interface, d’utiliser de nouveaux moteurs de transformation de données pour virtualiser les données, les déplacer en batch ou en temps réel, ou encore intégrer les Big Data sans avoir à apprendre les détails des langages, systèmes ou environnements sous-jacents.

Le fonctionnement de cette VDM, baptisée Vibe, repose sur la réception d’un jeu d’instructions qui décrit les sources à partir desquelles les données seront extraites, les règles et flux de leur transformation, analyse, masquage, archivage, réconciliation ou nettoyage, ainsi que, in fine, le lieu où ces données seront chargées une fois le processus achevé.

Enfin, Vibe peut être déployé comme un SDK qui peut être embarqué au cœur d’une application. Ainsi, au lieu de déplacer les données vers un moteur d’intégration de données pour traitement, il est possible de déplacer le moteur vers les données. Ce concept d’embarquement d’une VDM dans une application relève de la même idée qui consiste à construire une application sur un serveur d’applications. Il est ainsi possible de considérer ce concept comme un serveur d’applications très spécifique, spécialement conçu pour gérer tous les aspects d’intégration et de qualité de données propres à une application.

Avec le lancement de ce nouveau concept de VDM, Informatica compte véritablement dynamiser le marché l’intégration de données.




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store