Fivetran, le leader mondial de l'intégration de données moderne, dévoile aujourd'hui son nouveau rapport sur les data warehouses réalisé par Brooklyn Data. Si le data warehouse est exploité dans le cloud, la latence et le volume des données revêtent une importance accrue et la fonction d'intégration s'avère essentielle dès qu'un processus donné dans le data warehouse doit être exécuté à un moment précis à un endroit précis avec les données appropriées. Ce benchmark compare ainsi le prix, les performances et les fonctionnalités différenciées de Redshift, Snowflake, BigQuery, Databricks et Synapse.
La méthode de test
Brooklyn Data n'a pas procédé à des tests aléatoires, mais a utilisé un test de marché de référence industriel standardisé appelé TPC-DS. La quantité de données s'élevait à un téraoctet. Pour le stockage, 24 tables ont été utilisées dans un schéma en forme de flocon de neige ; les tables représentaient des données web, un catalogue de données et les ventes en magasin d'un distributeur imaginaire. La table de données la plus importante comportait quatre milliards de lignes, ce qui n'est pas trop petit, mais pas particulièrement volumineux pour un data warehouse moderne.
Entre mai et octobre 2022, les testeurs ont exécuté 99 requêtes TPC-DS. Ces requêtes étaient complexes, car elles comportaient de nombreuses liaisons, agrégations et sous-requêtes. La mise en cache par le data warehouse concerné a été supprimée en n'exécutant chaque requête qu'une seule fois. Les requêtes étaient exécutées de manière séquentielle, l'une après l'autre, ce qui les distinguait des requêtes habituelles dans la vie réelle. Dans la réalité, de nombreux utilisateurs lancent leurs requêtes simultanément. Pour chaque data warehouse, les requêtes devaient être ajustées a minima, par exemple en ce qui concerne les types de données.
Chaque data warehouse a été conçu en trois configurations afin de déterminer comment les performances se rapportent aux coûts. Chez AWS, par exemple, un nombre différent d'instances (3 ou 5 ou 10) peut entraîner un rapport qualité/prix totalement différent. Il en va de même pour les autres fournisseurs. Il est intéressant de noter que les tarifs "standard" de Databricks et Snowflake sont basés sur le prix standard d'AWS pour l'instance ra3-4xlarge. Les prix pour les niveaux "Premium" et "Enterprise" seraient en conséquence plus élevés. La tarification ponctuelle et à la demande ainsi que l'auto-scaling n'ont pas été pris en compte, car il s'agit de cas particuliers qui fausseraient la comparaison.
Tuning
Diverses astuces permettent d'améliorer les performances des data warehouses. L'index peut par exemple être utilisé pour augmenter la vitesse de lecture. C'est pourquoi les testeurs ont évité de tels index propres, mais ont conservé la méthode de compression des données en colonnes. Cela ne fait que réduire l'espace de stockage, mais pas la vitesse de lecture. Le résultat du test a attesté que tous les data warehouses avaient une excellente vitesse d'exécution, ce qui les rendait adaptés aux requêtes ad hoc et interactives. Pour calculer les coûts, la durée d'exécution d'une requête a été multipliée par le prix par seconde de chaque configuration.
Évaluation
Une évaluation ne peut être obtenue qu'en confrontant les résultats. Les testeurs ont comparé leurs résultats actuels avec ceux qu'ils avaient obtenus en 2020. Il en est ressorti que Databricks avait réalisé les plus grands progrès. Cela n'est pas surprenant, car l'éditeur a complètement réécrit son moteur d'exécution SQL "Photon" (toutes les requêtes ont été écrites et exécutées en SQL). Databricks a publié son propre benchmark en novembre 2021 pour prouver son efficacité, mais les paramètres de ce test de référence (notamment 100 téraoctets de données) sont très différents de ceux du test de Brooklyn Data.
George Fraser, CEO von FivetranGeorge Fraser, CEO de Fivetran, exprime son point de vue sur la concurrence entre Databricks et Snowflake en ces termes : « Databricks a fait de grands progrès et nous pouvons maintenant dire qu'ils sont en mesure de rivaliser avec les principaux fournisseurs de data warehouses en termes de performances SQL. Snowflake reste en tête de ce benchmark. Ce que je constate toutefois, c'est que les deux entreprises vendent principalement à deux groupes d'utilisateurs différents. Snowflake vend principalement aux analystes, Databricks plutôt aux ingénieurs. Dans de nombreux cas, ces deux groupes coexistent dans la même entreprise cliente ».
Ces cinq data warehouses appliquent au quotidien et ce depuis 2005, toutes les techniques de paramétrage habituelles, telles que le stockage en colonnes, la planification des requêtes en fonction des coûts, l'exécution en pipeline et la compilation des résultats en temps voulu. En tant que client, il convient de prendre avec prudence tout test de référence qui affirme qu'un data warehouse est « incroyablement » plus rapide que d'autres, car tous les data warehouses utilisent les astuces éprouvées susmentionnées.
Il semble y avoir une rumeur persistante selon laquelle les fournisseurs de data warehouses cloud ne veulent pas augmenter leurs performances parce que cela nuirait à leur propre chiffre d'affaires. George Fraser, CEO de Fivetran, s'attaque à ce « mythe » et explique que « les fournisseurs augmentent tout de même leurs performances (logicielles) ». La raison : « Ils font le pari que si les coûts des workloads concernées sont effectivement réduits, les clients réagiront avec le temps en ajoutant plus de workloads, et que c'est une situation gagnant-gagnant. »
Ces Warehouses proposent tous d’excellents tarifs et performances. Leur similarité ne doit pas nous surprendre : les techniques de base pour créer des data warehouses en colonnes rapides sont bien connues depuis la publication de l’article C-Store en 2005. Il est évident que ces Data Warehouses utilisent les astuces habituelles en matière de performances : stockage en colonnes, planification des requêtes selon le coût, exécution en Pipeline et compilation à l’instant T. Tout benchmark affirmant qu’un Data Warehouse est nettement meilleur qu’un autre doit être examiné avec circonspection. Les différences principales entre les Warehouses sont les différences qualitatives dues aux choix de conception : certains Warehouses misent sur les réglages, d’autres sur la simplicité d’utilisation. Lorsque vous évaluez des Data Warehouses, nous vous conseillons d’essayer plusieurs systèmes et de choisir celui offrant le meilleur équilibre.
Les testeurs de Brooklyn Data recommandent donc, lors de l'évaluation des data warehouses, de faire une démonstration de plusieurs systèmes et de choisir celui qui offre le bon équilibre entre les fonctions de réglage et la facilité d'utilisation, sans parler des exigences spécifiques du fonctionnement cloud. George Fraser, CEO de Fivetran, abonde dans ce sens. "La meilleure façon d'évaluer la simplicité d'utilisation est d'essayer chaque système. Rien ne remplace l'expérience immédiate et personnelle".
La méthode de test
Brooklyn Data n'a pas procédé à des tests aléatoires, mais a utilisé un test de marché de référence industriel standardisé appelé TPC-DS. La quantité de données s'élevait à un téraoctet. Pour le stockage, 24 tables ont été utilisées dans un schéma en forme de flocon de neige ; les tables représentaient des données web, un catalogue de données et les ventes en magasin d'un distributeur imaginaire. La table de données la plus importante comportait quatre milliards de lignes, ce qui n'est pas trop petit, mais pas particulièrement volumineux pour un data warehouse moderne.
Entre mai et octobre 2022, les testeurs ont exécuté 99 requêtes TPC-DS. Ces requêtes étaient complexes, car elles comportaient de nombreuses liaisons, agrégations et sous-requêtes. La mise en cache par le data warehouse concerné a été supprimée en n'exécutant chaque requête qu'une seule fois. Les requêtes étaient exécutées de manière séquentielle, l'une après l'autre, ce qui les distinguait des requêtes habituelles dans la vie réelle. Dans la réalité, de nombreux utilisateurs lancent leurs requêtes simultanément. Pour chaque data warehouse, les requêtes devaient être ajustées a minima, par exemple en ce qui concerne les types de données.
Chaque data warehouse a été conçu en trois configurations afin de déterminer comment les performances se rapportent aux coûts. Chez AWS, par exemple, un nombre différent d'instances (3 ou 5 ou 10) peut entraîner un rapport qualité/prix totalement différent. Il en va de même pour les autres fournisseurs. Il est intéressant de noter que les tarifs "standard" de Databricks et Snowflake sont basés sur le prix standard d'AWS pour l'instance ra3-4xlarge. Les prix pour les niveaux "Premium" et "Enterprise" seraient en conséquence plus élevés. La tarification ponctuelle et à la demande ainsi que l'auto-scaling n'ont pas été pris en compte, car il s'agit de cas particuliers qui fausseraient la comparaison.
Tuning
Diverses astuces permettent d'améliorer les performances des data warehouses. L'index peut par exemple être utilisé pour augmenter la vitesse de lecture. C'est pourquoi les testeurs ont évité de tels index propres, mais ont conservé la méthode de compression des données en colonnes. Cela ne fait que réduire l'espace de stockage, mais pas la vitesse de lecture. Le résultat du test a attesté que tous les data warehouses avaient une excellente vitesse d'exécution, ce qui les rendait adaptés aux requêtes ad hoc et interactives. Pour calculer les coûts, la durée d'exécution d'une requête a été multipliée par le prix par seconde de chaque configuration.
Évaluation
Une évaluation ne peut être obtenue qu'en confrontant les résultats. Les testeurs ont comparé leurs résultats actuels avec ceux qu'ils avaient obtenus en 2020. Il en est ressorti que Databricks avait réalisé les plus grands progrès. Cela n'est pas surprenant, car l'éditeur a complètement réécrit son moteur d'exécution SQL "Photon" (toutes les requêtes ont été écrites et exécutées en SQL). Databricks a publié son propre benchmark en novembre 2021 pour prouver son efficacité, mais les paramètres de ce test de référence (notamment 100 téraoctets de données) sont très différents de ceux du test de Brooklyn Data.
George Fraser, CEO von FivetranGeorge Fraser, CEO de Fivetran, exprime son point de vue sur la concurrence entre Databricks et Snowflake en ces termes : « Databricks a fait de grands progrès et nous pouvons maintenant dire qu'ils sont en mesure de rivaliser avec les principaux fournisseurs de data warehouses en termes de performances SQL. Snowflake reste en tête de ce benchmark. Ce que je constate toutefois, c'est que les deux entreprises vendent principalement à deux groupes d'utilisateurs différents. Snowflake vend principalement aux analystes, Databricks plutôt aux ingénieurs. Dans de nombreux cas, ces deux groupes coexistent dans la même entreprise cliente ».
Ces cinq data warehouses appliquent au quotidien et ce depuis 2005, toutes les techniques de paramétrage habituelles, telles que le stockage en colonnes, la planification des requêtes en fonction des coûts, l'exécution en pipeline et la compilation des résultats en temps voulu. En tant que client, il convient de prendre avec prudence tout test de référence qui affirme qu'un data warehouse est « incroyablement » plus rapide que d'autres, car tous les data warehouses utilisent les astuces éprouvées susmentionnées.
Il semble y avoir une rumeur persistante selon laquelle les fournisseurs de data warehouses cloud ne veulent pas augmenter leurs performances parce que cela nuirait à leur propre chiffre d'affaires. George Fraser, CEO de Fivetran, s'attaque à ce « mythe » et explique que « les fournisseurs augmentent tout de même leurs performances (logicielles) ». La raison : « Ils font le pari que si les coûts des workloads concernées sont effectivement réduits, les clients réagiront avec le temps en ajoutant plus de workloads, et que c'est une situation gagnant-gagnant. »
Ces Warehouses proposent tous d’excellents tarifs et performances. Leur similarité ne doit pas nous surprendre : les techniques de base pour créer des data warehouses en colonnes rapides sont bien connues depuis la publication de l’article C-Store en 2005. Il est évident que ces Data Warehouses utilisent les astuces habituelles en matière de performances : stockage en colonnes, planification des requêtes selon le coût, exécution en Pipeline et compilation à l’instant T. Tout benchmark affirmant qu’un Data Warehouse est nettement meilleur qu’un autre doit être examiné avec circonspection. Les différences principales entre les Warehouses sont les différences qualitatives dues aux choix de conception : certains Warehouses misent sur les réglages, d’autres sur la simplicité d’utilisation. Lorsque vous évaluez des Data Warehouses, nous vous conseillons d’essayer plusieurs systèmes et de choisir celui offrant le meilleur équilibre.
Les testeurs de Brooklyn Data recommandent donc, lors de l'évaluation des data warehouses, de faire une démonstration de plusieurs systèmes et de choisir celui qui offre le bon équilibre entre les fonctions de réglage et la facilité d'utilisation, sans parler des exigences spécifiques du fonctionnement cloud. George Fraser, CEO de Fivetran, abonde dans ce sens. "La meilleure façon d'évaluer la simplicité d'utilisation est d'essayer chaque système. Rien ne remplace l'expérience immédiate et personnelle".
Autres articles
-
Fivetran dépasse les 300 millions de dollars de revenu annuel récurrent, grâce à la demande croissante en matière d'IA et de mouvement de données
-
Fivetran présente sa solution « Hybrid Deployment »
-
Fivetran annonce Managed Data Lake Service, un nouveau service conçu pour supporter les grands volumes de données et les workloads d'IA
-
Rapport MIT Technology Review Insights : la préparation à l'IA repose en priorité sur la préparation des données
-
Fivetran renouvelle son engagement auprès de FM Logistic pour la réplication de ses données opérationnelles en temps réel