Snowflake améliore les data pipelines avec le lancement des nouvelles fonctions Auto-Ingest et Streams & Tasks

Auto-Ingest

AWS et Azure fournissent des mécanismes de notification pour avertir les utilisateurs lorsqu’un objet est créé. Auto-Ingest utilise ces mécanismes et les superpose sur le service d’acquisition pour que ce dernier puisse automatiquement détecter et récupérer les fichiers créés sous une étape et les intégrer dans les tables appropriées. Cela réduit le temps d’attente pour le requêtage en ingérant et transformant les données au fur et à mesure de leur arrivée.

Streams and Tasks

Streams and Tasks vise à fournir des mécanismes de planification afin que les clients n’aient plus à recourir à des interventions manuelles pour organiser les tâches les plus courantes au sein des bases Snowflake. Cette fonction permet également aux clients d’automatiser les différentes étapes du processus de préparation et de tri des données entre les tables de staging et les tables de destination.

Connecteur Snowflake pour Kafka

Kafka Apache est une plate-forme de construction de pipelines pour gérer des flux continus d’enregistrements, et le connecteur rend rapide et facile le chargement de ces enregistrements à votre instance Snowflake pour faciliter le stockage et l’analyse.

Le connecteur Snowflake pour Kafka est disponible via le repository Maven. Après avoir installé le connecteur sur un cluster Kafka Connect, il peut être instancié via une simple configuration JSON ou via le Confluent Control Center. Après avoir configuré le connecteur pour un ensemble de sujets, il crée et gère les étapes, les pipelines et les fichiers au nom de l’utilisateur pour ingérer de façon fiable les informations dans les tables Snowflake. Il n’y a aucun coût supplémentaire pour l’utilisation du Snowflake Connector pour Kafka, qui est disponible gratuitement sous une licence Apache 2.0.

Les entreprises travaillent aujourd'hui avec des quantités massives de données et, pour analyser toutes ces données, elles ont besoin d'une vue unique de l'ensemble des celles-ci. Le défi est que les données sont stockées dans de multiples systèmes et services, et qu'elles doivent être combinées de manière à permettre une analyse approfondie. Le flux de données lui-même peut être particulièrement peu fiable parce qu'il y a de nombreux points pendant le transit des données d'un système à un autre où elles peuvent être corrompues. Au fur et à mesure que l'ampleur et la portée du rôle joué par les données augmentent, l'ampleur et l'impact des problèmes ne font que s'amplifier.

C'est pourquoi les data pipelines sont essentiels. Ils éliminent de nombreuses étapes manuelles du processus, ce qui apporte un flux de données automatisé et fluide d'une étape à l'autre. Ils sont aussi importants pour l'analyse en temps réel afin d'aider les entreprises à prendre des décisions plus rapidement.

Autres articles

Snowflake améliore les data pipelines avec le lancement des nouvelles fonctions Auto-Ingest et Streams & Tasks

MicroStrategy reconnue leader pour la deuxième année consécutive dans le rapport Modern Marketing Data Stack de Snowflake

Snowflake dévoile 5 tendances clés qui redéfinissent le marketing à l'ère de l'IA et des données

4 entreprises sur 5 ne peuvent pas tirer parti de l'IA à cause de fondations de données inadéquates

Rivery annonce l'intégration de Snowflake comme source de données

Cloudera s'associe à Snowflake et intègre la gestion des données hybrides basée sur Iceberg

ManoMano renforce sa gouvernance de données grâce à CastorDoc - 14/11/2024

Cap sur l'aviation du futur / data-driven : TCS signe un accord pluriannuel pour migrer les données d'Air France-KLM vers le cloud - 10/11/2024

IBM choisi comme partenaire officiel de la Scuderia Ferrari HP pour l'engagement des fans et l'analyse des données - 10/11/2024

Petit Bateau s’appuie sur Epsilon France pour moderniser son écosystème data et accompagner sa transformation digitale - 07/11/2024

Données peu centralisées : un frein aux capacités d’analyse des entreprises françaises, selon Alteryx - 06/11/2024