Du Data Warehouse au Data Lake, tirer parti du meilleur des deux mondes

Frédéric Brousse, Directeur Général d’Informatica France

En effet, pour faire face à la croissance exponentielle des données, les entreprises sont amenées à repenser et à organiser le département IT de manière cohérente pour intégrer efficacement les applications à la fois sur site et dans le cloud. Elles doivent ainsi faire le choix entre des bases de données relationnelles "robustes" et des technologies de données plus évolutives, telles que NoSQL et Hadoop.

Qu’est-ce qu’un Data Lake et quelle est sa valeur ?

Le « Data Lake », ou « lac de données », est un concept simple et relativement nouveau qui s’inscrit dans la mouvance du Big Data. L’objectif principal est de pouvoir fournir un stockage / entrepôt global des informations présentes dans une entreprise. Par le passé, la plupart des entreprises n’ont pas eu à gérer cette masse de données en provenance de plusieurs flux entrants, car la quasi-totalité des données était interne à l’entreprise.

Aujourd’hui, les entreprises ont besoin de pouvoir stocker les données internes et externes, brutes ou non, dans un seul et même lieu. Elles sont également confrontées à des exigences en matière de capacité et de flexibilité à traiter et analyser l’information le plus rapidement possible. A la différence d’un Data Warehouse, le Data Lake offre la possibilité de créer sa propre transformation et d’analyser les données sans avoir un chemin particulier imposé par le système ETL (Extract-Transform-Load). Ainsi, chaque utilisateur peut matérialiser son propre besoin et extraire les données sources nécessaires pour son analyse de manière rapide tout en tirant pleinement parti de l’évolutivité et de l’efficacité opérationnelle qu’offre le Data Lake.

A titre d’exemples, les institutions de services financiers sauvegardent et analysent les données transactionnelles et d’autres signaux connexes afin d’enrichir les techniques de détection des fraudes, suivre l’évolution des réglementations mondiales, et ainsi renforcer la confiance des consommateurs sur la sécurité de leurs services fournis.
Dans le secteur de la santé, les organismes conservent les données de dossiers médicaux électroniques afin de proposer des soins plus personnalisés. Le Data Lake permet ainsi, dans un même lieu, de recueillir tous types de données, de les mettre en relation afin de pouvoir les analyser rapidement et en tirer une vraie valeur ajoutée pour améliorer l’expérience client et garantir la confidentialité au patient.

Data Lake vs. Data Warehouse

Mais le Data Lake ne vient pas remplacer le Data Warehouse, au contraire, il le complète.

Le Data Warehouse entrepose des données de façon structurée. Il conserve ainsi une qualité et une fiabilité liées à la structuration des données imposée à l’origine du schéma/processus de stockage. Ainsi, il permet d’avoir accès à des données à forte valeur ajoutée mais répondant à un nombre limité d’algorithmes analytiques qui ne prend en compte que des formats spécifiques de données.

Le Data Lake offre une véritable agilité qui vient répondre à l’évolution du marché et l’explosion de la volumétrie des données, avec l’émergence du mobile computing, des objets connectés et autres changements disruptifs. Ces évolutions entraînent le besoin d’utiliser, d’examiner et de tester des données de toutes sortes et de tous horizons à des fins analytiques ou applicatives, et à faible coût.

Le Data Warehouse possède peu de données mais d’une valeur importante. Le Data Lake conserve quant à lui une multitude de données diverses et variées à faible coût.

Ainsi, il convient aux entreprises en phase de restructuration, de repenser les usages et besoins en matière d’analyse des données à l’ère du digital, avant de se décider à remplacer définitivement le Data Warehouse par le Data Lake. Des outils existent qui permettent de standardiser la gestion des données à travers les deux univers. Il faudrait ainsi tenter de développer une synergie entre les deux approches pour en tirer le meilleur parti.

Autres articles

Du Data Warehouse au Data Lake, tirer parti du meilleur des deux mondes

Informatica annonce un vaste programme d'innovations pour les solutions d'analyse et d’IA générative, basé sur AWS

Informatica apporte sa contribution aux mégatendances de Microsoft Azure (IA générative, Microsoft Fabric et format en tables de données ouvertes) avec de nouvelles fonctionnalités

Informatica annonce la disponibilité générale de CLAIRE-GPT basée sur la GenAI en Europe et dans la région Asie-Pacifique

Informatica met à disposition des blueprints pour simplifier et accélérer le développement d'IA générative sur les principales plateformes technologiques

Informatica s'associe à HowGood pour permettre à l'industrie alimentaire de prendre des décisions de développement durable basées sur des données et faciliter la conformité ESG

Snowflake renforce la collaboration cross-cloud pour les données d'entreprise et l'intelligence artificielle - 21/11/2024

Snowflake unifie les données transactionnelles et analytiques avec la disponibilité générale des Hybrid Tables - 21/11/2024

Neo4j dépasse les 200 millions de dollars de chiffre d’affaires et accélère son leadership dans le domaine de la GenAI grâce à sa technologie de graphes - 20/11/2024

Starburst annonce une capacité d’ingestion de données en streaming de 100 Gb/seconde depuis Apache Kafka vers les tables Apache Iceberg - 06/11/2024

Se préparer à l’avenir des moteurs de recherche avec l’approche vectorielle - 22/10/2024