Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Databricks lance le data lineage pour Unity Catalog


Rédigé par Communiqué de Databricks le 10 Juin 2022

Les nouvelles fonctionnalités de data lineage donnent aux clients plus de transparence et un contrôle proactif sur la façon dont les données sont utilisées dans leur lakehouse.



Databricks, « The data and AI company » et pionnière du paradigme du lakehouse, annonce une fonction de data lineage pour Unity Catalog, ce qui étend considérablement les capacités de gouvernance des données du lakehouse. Le data lineage décrit la manière dont les données circulent dans une entreprise. Grâce à cette nouvelle fonctionnalité d'Unity Catalog, les clients sont en mesure d'obtenir une visibilité sur l'origine des données de leur lakehouse, qui les a créées et quand, comment elles ont été modifiées au fil du temps, comment elles sont utilisées, et bien plus encore. Le data lineage pour Unity Catalog est disponible en avant-première sur AWS et Microsoft Azure.

Les entreprises sont confrontées à un afflux de données provenant de sources multiples, et il est extrêmement difficile de comprendre d'où viennent ces données, comment elles se déplacent et évoluent, qui y a accès et comment elles sont utilisées. Cependant, cette compréhension est essentielle pour augmenter la confiance et évaluer les risques. Avec le data lineage d’Unity Catalog, les équipes data peuvent voir tous les consommateurs en aval impactés par les changements de données : applications, tableaux de bord, modèles de machine learning ou ensembles de données, etc. Elles peuvent ainsi comprendre facilement la gravité de l'impact pour notifier rapidement les changements aux parties prenantes concernées.

Le data lineage permet aux consommateurs de données, tels que les data scientists, les data ingénieurs et les data analystes, de tenir compte du contexte lorsqu'ils effectuent des analyses, ce qui se traduit par des résultats de meilleure qualité. En outre, les responsables des données peuvent voir quels ensembles de données ne sont plus accessibles ou sont devenus obsolètes afin de retirer les données inutiles, ce qui réduit les risques et garantit que les utilisateurs finaux n'utilisent que des données de haute qualité. Les nouvelles fonctionnalités d'Unity Catalog offrent aux entreprises une vue complète de l'ensemble du cycle de vie des données, afin que les responsables des données puissent comprendre comment celles-ci sont collectées, si elles ont été mises à jour et les processus utilisés.

« Les capacités de gouvernance, telles que le data lineage, sont essentielles à notre travail de conception de la plateforme lakehouse la plus robuste du marché, » déclare Matei Zaharia, cofondateur et Chief Technologist chez Databricks. « Sans un bon data lineage, il est difficile de suivre les processus business et de vérification, dont les organisations data-driven ont besoin pour réussir. Notre objectif est d’assurer que nos clients puissent se concentrer sur les informations et adopter des pratiques de gestion des données proactives grâce à une vue unifiée et transparente de l'ensemble de leur data écosystème. »

Les principales spécificités d'Unity Catalog incluent le lignage automatisé en cours d'exécution pour capturer tout le lignage généré dans Databricks, offrant ainsi plus de précision et d'efficacité par rapport au marquage manuel des données. Ces informations sont capturées pour les tables, les vues et les colonnes afin de donner une image granulaire des flux de données en amont et en aval. En outre, le lignage fonctionne dans tous les workloads pris en charge par Databricks, notamment SQL, Python, R et Scala, ce qui permet à toutes les personnes concernées par les données d'enrichir leurs outils d'intelligence basées sur les données et d'obtenir de meilleures informations. Cela inclut la capture de l'historique des entrées telles que les notebooks, les workflows et les tableaux de bord.

Le data lineage aide également les entreprises à mieux respecter les normes de conformité, en facilitant le suivi des flux de données soumis à des réglementations de conformité telles que le règlement général sur la protection des données (RGPD), la loi californienne sur la protection de la vie privée des consommateurs (CCPA), ou encore la loi sur la portabilité et la responsabilité des assurances santé (HIPAA). Cet élément de traçabilité des données est un ingrédient clé d'une architecture de données moderne qui permet aux clients de répondre à leurs exigences légales.




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store