Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Databricks LakeFlow : une solution unifiée et intelligente pour l'ingénierie des données


Rédigé par Communiqué de Databricks le 16 Juin 2024

Ingérer des données à partir de bases de données, d'applications d'entreprise et de sources cloud, les transformer par lots et en temps quasi réel à l'aide de SQL et de Python, les déployer et les exploiter en production en toute confiance.



Databricks, la société spécialisée dans les données et l'IA, annonce aujourd'hui le lancement de Databricks LakeFlow, une nouvelle solution qui unifie et simplifie tous les aspects de l'ingénierie des données (ou Data Engineering), de l'ingestion des données à la transformation et à l'orchestration. Avec LakeFlow, les équipes chargées des données peuvent désormais ingérer simplement et efficacement des données à l'échelle à partir de bases de données telles que MySQL, Postgres et Oracle, et d'applications d'entreprise telles que Salesforce, Dynamics, Sharepoint, Workday, NetSuite et Google Analytics. Databricks introduit également le Real Time Mode pour Apache SparkTM, qui permet un traitement en flux à très faible latence.

LakeFlow automatise le déploiement, l'exploitation et la surveillance des pipelines à l'échelle de la production avec une prise en charge intégrée de CI/CD et des workflows avancés qui prennent en charge le déclenchement, le branchement et l'exécution conditionnelle. Les contrôles de qualité des données et la surveillance de l'état de santé sont intégrés à des systèmes d'alerte tels que PagerDuty. LakeFlow rend la construction et l'exploitation de pipelines de données de niveau de production simples et efficaces tout en répondant aux cas d'utilisation d'ingénierie des données les plus complexes, permettant ainsi aux équipes de données les plus occupées de répondre à la demande croissante de données fiables et d'IA.

Relever les défis liés à la création et à l'exploitation de pipelines de données fiables

Le data engineering est essentiel pour démocratiser les données et l'IA au sein des entreprises, mais il reste un domaine difficile et complexe. Les équipes data doivent ingérer des données provenant de systèmes cloisonnés et souvent propriétaires, notamment des bases de données et des applications d'entreprise, ce qui nécessite souvent la création de connecteurs complexes et fragiles. En outre, la préparation des données implique le maintien d'une logique complexe, et les défaillances et les pics de latence peuvent entraîner des perturbations opérationnelles et des clients mécontents. Le déploiement de pipelines et le contrôle de la qualité des données nécessitent généralement des outils supplémentaires et disparates, ce qui complique encore le processus. Les solutions existantes sont fragmentées et incomplètes, ce qui entraîne une faible qualité des données, des problèmes de fiabilité, des coûts élevés et un arriéré de travail croissant.

LakeFlow relève ces défis en simplifiant tous les aspects de l'ingénierie des données via une expérience unique et unifiée construite sur la Data Intelligence Platform de Databricks avec des intégrations profondes avec Unity Catalog pour une gouvernance de bout en bout et un calcul sans serveur permettant une exécution hautement efficace et évolutive.

Caractéristiques principales de LakeFlow

LakeFlow Connect : Une ingestion de données simple et évolutive à partir de n'importe quelle source de données. LakeFlow Connect propose un large éventail de connecteurs natifs et évolutifs pour des bases de données telles que MySQL, Postgres, SQL Server et Oracle, ainsi que pour des applications d'entreprise telles que Salesforce, Dynamics, Sharepoint, Workday et NetSuite. Ces connecteurs sont entièrement intégrés à Unity Catalog, ce qui permet une solide gouvernance des données. LakeFlow Connect incorpore les capacités de faible latence et de haute efficacité d'Arcion, qui a été acquis par Databricks en novembre 2023. LakeFlow Connect rend toutes les données, quels que soient leur taille, leur format ou leur emplacement, disponibles pour l'analyse par lots et en temps réel.

Pipelines LakeFlow : Simplification et automatisation des pipelines de données en temps réel. Basé sur la technologie hautement évolutive Delta Live Tables de Databricks, LakeFlow Pipelines permet aux équipes chargées des données de mettre en œuvre la transformation des données et l'ETL en SQL ou en Python. Les clients peuvent désormais activer le mode Real Time pour un streaming à faible latence sans aucune modification du code. LakeFlow élimine le besoin d'orchestration manuelle et unifie le traitement par lots et par flux. Il offre un traitement incrémental des données pour un rapport prix/performance optimal. LakeFlow Pipelines simplifie la construction et l'exploitation des transformations de données en streaming et en batch, même les plus complexes.

Emplois LakeFlow : Orchestrer les workflows à travers la Data Intelligence Platform. LakeFlow Jobs assure l'orchestration automatisée, la santé des données et la livraison, en passant par la planification des blocs-notes et des requêtes SQL, jusqu'à l'entraînement ML et la mise à jour automatique des tableaux de bord. Il offre des fonctionnalités de flux de contrôle améliorées et une observabilité complète pour aider à détecter, diagnostiquer et atténuer les problèmes de données afin d'améliorer la fiabilité du pipeline. LakeFlow Jobs automatise le déploiement, l'orchestration et la surveillance des pipelines de données en un seul endroit, ce qui permet aux équipes de données de tenir plus facilement leurs promesses en matière de livraison de données.

Disponibilité

Avec LakeFlow, l'avenir de l'ingénierie des données est unifié et intelligent. LakeFlow sera bientôt disponible en avant-première, en commençant par LakeFlow Connect.




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store