L'attractivité du cloud et l’émergence d’architectures hybrides
Migrer vers le cloud semble être devenu un pré-requis en 2023, cependant cette démarche soulève de nombreux questionnements éthiques, tandis que les détails logistiques nécessaires demeurent inconnus. L’adoption massive du 100 % cloud n’est donc pas encore d’actualité. À moins d'appartenir à des secteurs plus agiles, flexibles, ou avec moins de contraintes légales, les architectures de données hybrides qui combinent infrastructures on-premises et cloud continueront de prédominer. Cela peut s’expliquer par leur flexibilité de déploiement, leur réponse aux besoins métiers, des projets tels qu’une migration planifiée sur plusieurs années, la maîtrise des coûts ou des contraintes réglementaires tels que l’hébergement souverain. Ce phénomène conduit également à des réflexions autour des architectures multi-cloud, qui renforce cette tendance à ne pas concentrer tous ses nœuds dans le même panier.
L’évolution du Data Lake et la bataille des formats de table
L’univers du Data Lake et Lakehouse suscite des questionnements persistants, tels que la pertinence d’Hadoop, qui perd en popularité. Il est cependant toujours présent mais surtout, le Data Lake en général conserve sa pertinence et continuera d'être le socle essentiel de toute architecture, puisque les impératifs de flexibilité et de scalabilité des données demeurent d'actualité. On observe également une tendance émergente vers des Data Lakes on-premises basés sur un stockage d'objets sans couches Hadoop, qui offrent une alternative moins complexe. En parallèle, une intense bataille entre les formats de table tels qu’Apache Iceberg, Delta Lake ou Hudi, est en train de se dérouler. Les éditeurs luttent pour établir leur monopole et influencer les projets open source. Cependant, les choix faits par les entreprises dépendront souvent de la solution globale adoptée, au risque de favoriser le vendor lock-in et au détriment de leurs besoins fonctionnels ou de leur indépendance.
Le rôle croissant du Data Mesh et des Data Products
L'engouement pour le Data Mesh persistera, malgré un certain pragmatisme qui continuera à se développer concernant son implémentation. Les entreprises commencent à réaliser qu'il est impossible de tout centraliser dans un seul et même endroit, bien que l'importance d'un Data Lake central demeure indéniable. Les entreprises continueront donc d’adopter une démarche personnalisée pour décider de la meilleure manière d’adapter le Data Mesh à leurs besoins et à leur rythme. Parallèlement, de plus en plus d’entreprises se concentreront sur le développement de Data Products, qui permettent de faciliter la gouvernance et l'utilisation des données sans nécessairement adopter une architecture aussi complexe que le Data Mesh.
L'incontournable défi de la gouvernance
La gouvernance des données demeurera clé et couvrira bien plus que le stockage et le traitement. Elle prendra en compte la sécurité qui reste une priorité face à la menace persistante des ransomwares, mais aussi les droits d'accès, le lineage, le catalogage, la qualité, l'observabilité et l’orchestration des données. Les éditeurs de plateformes se concentreront sur le développement d'outils natifs de gouvernance pour offrir des solutions intégrées, réduisant ainsi les dépendances externes et répondant aux besoins croissants des entreprises en matière de gestion et de supervision de données.
L'art d'interroger et de transformer la donnée
L'interrogation et la transformation des données continuent de s'appuyer sur des outils bien établis. Le SQL maintient sa domination sans surprise, offrant une stabilité dans l'interrogation des données. Pour la transformation, Spark restera pertinent dans certains contextes, tandis que Python conservera son importance. Les choix d'interrogation des données resteront déterminés par les cas d'utilisation et les préférences des utilisateurs, qu'il s'agisse de data science, data engineering ou business intelligence, chacun optant pour les outils qui correspondent le mieux à ses besoins spécifiques.
L'inévitable impact de l'IA et de la GenAI
Impossible de faire l’impasse sur l’IA dans ces tendances 2024 : en effet, la révolution entamée par l'IA, et plus particulièrement la GenIA, se poursuivra inévitablement, avec une accélération de l'innovation qui apportera son lot d'euphorie et de défis prévisibles. Dans le domaine des projets data, la donnée jouera un double rôle majeur. D'une part, elle servira à former et enrichir (fine-tuning) les modèles d'IA. D'autre part, la GenIA et les modèles de langage (LLM), contribueront à améliorer les solutions et les outils de données. Cela se traduira par la génération de code SQL, de tags, d'un contexte métier, d'une classification, et plus généralement, d'une documentation détaillée des données et des produits de données.
Migrer vers le cloud semble être devenu un pré-requis en 2023, cependant cette démarche soulève de nombreux questionnements éthiques, tandis que les détails logistiques nécessaires demeurent inconnus. L’adoption massive du 100 % cloud n’est donc pas encore d’actualité. À moins d'appartenir à des secteurs plus agiles, flexibles, ou avec moins de contraintes légales, les architectures de données hybrides qui combinent infrastructures on-premises et cloud continueront de prédominer. Cela peut s’expliquer par leur flexibilité de déploiement, leur réponse aux besoins métiers, des projets tels qu’une migration planifiée sur plusieurs années, la maîtrise des coûts ou des contraintes réglementaires tels que l’hébergement souverain. Ce phénomène conduit également à des réflexions autour des architectures multi-cloud, qui renforce cette tendance à ne pas concentrer tous ses nœuds dans le même panier.
L’évolution du Data Lake et la bataille des formats de table
L’univers du Data Lake et Lakehouse suscite des questionnements persistants, tels que la pertinence d’Hadoop, qui perd en popularité. Il est cependant toujours présent mais surtout, le Data Lake en général conserve sa pertinence et continuera d'être le socle essentiel de toute architecture, puisque les impératifs de flexibilité et de scalabilité des données demeurent d'actualité. On observe également une tendance émergente vers des Data Lakes on-premises basés sur un stockage d'objets sans couches Hadoop, qui offrent une alternative moins complexe. En parallèle, une intense bataille entre les formats de table tels qu’Apache Iceberg, Delta Lake ou Hudi, est en train de se dérouler. Les éditeurs luttent pour établir leur monopole et influencer les projets open source. Cependant, les choix faits par les entreprises dépendront souvent de la solution globale adoptée, au risque de favoriser le vendor lock-in et au détriment de leurs besoins fonctionnels ou de leur indépendance.
Le rôle croissant du Data Mesh et des Data Products
L'engouement pour le Data Mesh persistera, malgré un certain pragmatisme qui continuera à se développer concernant son implémentation. Les entreprises commencent à réaliser qu'il est impossible de tout centraliser dans un seul et même endroit, bien que l'importance d'un Data Lake central demeure indéniable. Les entreprises continueront donc d’adopter une démarche personnalisée pour décider de la meilleure manière d’adapter le Data Mesh à leurs besoins et à leur rythme. Parallèlement, de plus en plus d’entreprises se concentreront sur le développement de Data Products, qui permettent de faciliter la gouvernance et l'utilisation des données sans nécessairement adopter une architecture aussi complexe que le Data Mesh.
L'incontournable défi de la gouvernance
La gouvernance des données demeurera clé et couvrira bien plus que le stockage et le traitement. Elle prendra en compte la sécurité qui reste une priorité face à la menace persistante des ransomwares, mais aussi les droits d'accès, le lineage, le catalogage, la qualité, l'observabilité et l’orchestration des données. Les éditeurs de plateformes se concentreront sur le développement d'outils natifs de gouvernance pour offrir des solutions intégrées, réduisant ainsi les dépendances externes et répondant aux besoins croissants des entreprises en matière de gestion et de supervision de données.
L'art d'interroger et de transformer la donnée
L'interrogation et la transformation des données continuent de s'appuyer sur des outils bien établis. Le SQL maintient sa domination sans surprise, offrant une stabilité dans l'interrogation des données. Pour la transformation, Spark restera pertinent dans certains contextes, tandis que Python conservera son importance. Les choix d'interrogation des données resteront déterminés par les cas d'utilisation et les préférences des utilisateurs, qu'il s'agisse de data science, data engineering ou business intelligence, chacun optant pour les outils qui correspondent le mieux à ses besoins spécifiques.
L'inévitable impact de l'IA et de la GenAI
Impossible de faire l’impasse sur l’IA dans ces tendances 2024 : en effet, la révolution entamée par l'IA, et plus particulièrement la GenIA, se poursuivra inévitablement, avec une accélération de l'innovation qui apportera son lot d'euphorie et de défis prévisibles. Dans le domaine des projets data, la donnée jouera un double rôle majeur. D'une part, elle servira à former et enrichir (fine-tuning) les modèles d'IA. D'autre part, la GenIA et les modèles de langage (LLM), contribueront à améliorer les solutions et les outils de données. Cela se traduira par la génération de code SQL, de tags, d'un contexte métier, d'une classification, et plus généralement, d'une documentation détaillée des données et des produits de données.
Autres articles
-
HSBC optimise son accès aux données et son efficacité opérationnelle grâce à la technologie Starburst
-
Du Big Data au Better Data : 5 tendances stratégiques pour 2025 selon Starburst
-
Starburst annonce une capacité d’ingestion de données en streaming de 100 Gb/seconde depuis Apache Kafka vers les tables Apache Iceberg
-
Starburst nomme Deron Miller vice-président senior et directeur général Amériques et APAC
-
Starburst nomme Steve Williamson au poste de directeur général EMEA