Databricks, la société spécialisée dans les données et l'IA, annonce aujourd'hui le lancement de Databricks LakeFlow, une nouvelle solution qui unifie et simplifie tous les aspects de l'ingénierie des données (ou Data Engineering), de l'ingestion des données à la transformation et à l'orchestration. Avec LakeFlow, les équipes chargées des données peuvent désormais ingérer simplement et efficacement des données à l'échelle à partir de bases de données telles que MySQL, Postgres et Oracle, et d'applications d'entreprise telles que Salesforce, Dynamics, Sharepoint, Workday, NetSuite et Google Analytics. Databricks introduit également le Real Time Mode pour Apache SparkTM, qui permet un traitement en flux à très faible latence.
LakeFlow automatise le déploiement, l'exploitation et la surveillance des pipelines à l'échelle de la production avec une prise en charge intégrée de CI/CD et des workflows avancés qui prennent en charge le déclenchement, le branchement et l'exécution conditionnelle. Les contrôles de qualité des données et la surveillance de l'état de santé sont intégrés à des systèmes d'alerte tels que PagerDuty. LakeFlow rend la construction et l'exploitation de pipelines de données de niveau de production simples et efficaces tout en répondant aux cas d'utilisation d'ingénierie des données les plus complexes, permettant ainsi aux équipes de données les plus occupées de répondre à la demande croissante de données fiables et d'IA.
Relever les défis liés à la création et à l'exploitation de pipelines de données fiables
Le data engineering est essentiel pour démocratiser les données et l'IA au sein des entreprises, mais il reste un domaine difficile et complexe. Les équipes data doivent ingérer des données provenant de systèmes cloisonnés et souvent propriétaires, notamment des bases de données et des applications d'entreprise, ce qui nécessite souvent la création de connecteurs complexes et fragiles. En outre, la préparation des données implique le maintien d'une logique complexe, et les défaillances et les pics de latence peuvent entraîner des perturbations opérationnelles et des clients mécontents. Le déploiement de pipelines et le contrôle de la qualité des données nécessitent généralement des outils supplémentaires et disparates, ce qui complique encore le processus. Les solutions existantes sont fragmentées et incomplètes, ce qui entraîne une faible qualité des données, des problèmes de fiabilité, des coûts élevés et un arriéré de travail croissant.
LakeFlow relève ces défis en simplifiant tous les aspects de l'ingénierie des données via une expérience unique et unifiée construite sur la Data Intelligence Platform de Databricks avec des intégrations profondes avec Unity Catalog pour une gouvernance de bout en bout et un calcul sans serveur permettant une exécution hautement efficace et évolutive.
Caractéristiques principales de LakeFlow
LakeFlow Connect : Une ingestion de données simple et évolutive à partir de n'importe quelle source de données. LakeFlow Connect propose un large éventail de connecteurs natifs et évolutifs pour des bases de données telles que MySQL, Postgres, SQL Server et Oracle, ainsi que pour des applications d'entreprise telles que Salesforce, Dynamics, Sharepoint, Workday et NetSuite. Ces connecteurs sont entièrement intégrés à Unity Catalog, ce qui permet une solide gouvernance des données. LakeFlow Connect incorpore les capacités de faible latence et de haute efficacité d'Arcion, qui a été acquis par Databricks en novembre 2023. LakeFlow Connect rend toutes les données, quels que soient leur taille, leur format ou leur emplacement, disponibles pour l'analyse par lots et en temps réel.
Pipelines LakeFlow : Simplification et automatisation des pipelines de données en temps réel. Basé sur la technologie hautement évolutive Delta Live Tables de Databricks, LakeFlow Pipelines permet aux équipes chargées des données de mettre en œuvre la transformation des données et l'ETL en SQL ou en Python. Les clients peuvent désormais activer le mode Real Time pour un streaming à faible latence sans aucune modification du code. LakeFlow élimine le besoin d'orchestration manuelle et unifie le traitement par lots et par flux. Il offre un traitement incrémental des données pour un rapport prix/performance optimal. LakeFlow Pipelines simplifie la construction et l'exploitation des transformations de données en streaming et en batch, même les plus complexes.
Emplois LakeFlow : Orchestrer les workflows à travers la Data Intelligence Platform. LakeFlow Jobs assure l'orchestration automatisée, la santé des données et la livraison, en passant par la planification des blocs-notes et des requêtes SQL, jusqu'à l'entraînement ML et la mise à jour automatique des tableaux de bord. Il offre des fonctionnalités de flux de contrôle améliorées et une observabilité complète pour aider à détecter, diagnostiquer et atténuer les problèmes de données afin d'améliorer la fiabilité du pipeline. LakeFlow Jobs automatise le déploiement, l'orchestration et la surveillance des pipelines de données en un seul endroit, ce qui permet aux équipes de données de tenir plus facilement leurs promesses en matière de livraison de données.
Disponibilité
Avec LakeFlow, l'avenir de l'ingénierie des données est unifié et intelligent. LakeFlow sera bientôt disponible en avant-première, en commençant par LakeFlow Connect.
LakeFlow automatise le déploiement, l'exploitation et la surveillance des pipelines à l'échelle de la production avec une prise en charge intégrée de CI/CD et des workflows avancés qui prennent en charge le déclenchement, le branchement et l'exécution conditionnelle. Les contrôles de qualité des données et la surveillance de l'état de santé sont intégrés à des systèmes d'alerte tels que PagerDuty. LakeFlow rend la construction et l'exploitation de pipelines de données de niveau de production simples et efficaces tout en répondant aux cas d'utilisation d'ingénierie des données les plus complexes, permettant ainsi aux équipes de données les plus occupées de répondre à la demande croissante de données fiables et d'IA.
Relever les défis liés à la création et à l'exploitation de pipelines de données fiables
Le data engineering est essentiel pour démocratiser les données et l'IA au sein des entreprises, mais il reste un domaine difficile et complexe. Les équipes data doivent ingérer des données provenant de systèmes cloisonnés et souvent propriétaires, notamment des bases de données et des applications d'entreprise, ce qui nécessite souvent la création de connecteurs complexes et fragiles. En outre, la préparation des données implique le maintien d'une logique complexe, et les défaillances et les pics de latence peuvent entraîner des perturbations opérationnelles et des clients mécontents. Le déploiement de pipelines et le contrôle de la qualité des données nécessitent généralement des outils supplémentaires et disparates, ce qui complique encore le processus. Les solutions existantes sont fragmentées et incomplètes, ce qui entraîne une faible qualité des données, des problèmes de fiabilité, des coûts élevés et un arriéré de travail croissant.
LakeFlow relève ces défis en simplifiant tous les aspects de l'ingénierie des données via une expérience unique et unifiée construite sur la Data Intelligence Platform de Databricks avec des intégrations profondes avec Unity Catalog pour une gouvernance de bout en bout et un calcul sans serveur permettant une exécution hautement efficace et évolutive.
Caractéristiques principales de LakeFlow
LakeFlow Connect : Une ingestion de données simple et évolutive à partir de n'importe quelle source de données. LakeFlow Connect propose un large éventail de connecteurs natifs et évolutifs pour des bases de données telles que MySQL, Postgres, SQL Server et Oracle, ainsi que pour des applications d'entreprise telles que Salesforce, Dynamics, Sharepoint, Workday et NetSuite. Ces connecteurs sont entièrement intégrés à Unity Catalog, ce qui permet une solide gouvernance des données. LakeFlow Connect incorpore les capacités de faible latence et de haute efficacité d'Arcion, qui a été acquis par Databricks en novembre 2023. LakeFlow Connect rend toutes les données, quels que soient leur taille, leur format ou leur emplacement, disponibles pour l'analyse par lots et en temps réel.
Pipelines LakeFlow : Simplification et automatisation des pipelines de données en temps réel. Basé sur la technologie hautement évolutive Delta Live Tables de Databricks, LakeFlow Pipelines permet aux équipes chargées des données de mettre en œuvre la transformation des données et l'ETL en SQL ou en Python. Les clients peuvent désormais activer le mode Real Time pour un streaming à faible latence sans aucune modification du code. LakeFlow élimine le besoin d'orchestration manuelle et unifie le traitement par lots et par flux. Il offre un traitement incrémental des données pour un rapport prix/performance optimal. LakeFlow Pipelines simplifie la construction et l'exploitation des transformations de données en streaming et en batch, même les plus complexes.
Emplois LakeFlow : Orchestrer les workflows à travers la Data Intelligence Platform. LakeFlow Jobs assure l'orchestration automatisée, la santé des données et la livraison, en passant par la planification des blocs-notes et des requêtes SQL, jusqu'à l'entraînement ML et la mise à jour automatique des tableaux de bord. Il offre des fonctionnalités de flux de contrôle améliorées et une observabilité complète pour aider à détecter, diagnostiquer et atténuer les problèmes de données afin d'améliorer la fiabilité du pipeline. LakeFlow Jobs automatise le déploiement, l'orchestration et la surveillance des pipelines de données en un seul endroit, ce qui permet aux équipes de données de tenir plus facilement leurs promesses en matière de livraison de données.
Disponibilité
Avec LakeFlow, l'avenir de l'ingénierie des données est unifié et intelligent. LakeFlow sera bientôt disponible en avant-première, en commençant par LakeFlow Connect.
Autres articles
-
Qlik améliore l’intégration avec SAP, Databricks et Snowflake et favorise la création de valeur grâce à l’IA
-
Databricks lève 10 milliards de dollars dans une levée de fonds en Série J, avec une valorisation de 62 milliards de dollars
-
Databricks renforce son partenariat avec AWS pour offrir des capacités avancées d'IA générative
-
Databricks renforce son partenariat avec AWS pour offrir des fonctionnalités avancées d'IA générative
-
Databricks Apps : Le moyen le plus rapide et le plus sûr de créer des applications de données et d'IA