Du nouveau dans la Microsoft Intelligent Data Platform


Rédigé par le 28 Mars 2024

Cette semaine avait lieu à Las Vegas la conférence des utilisateurs de la fabrique de données Microsoft. L'occasion de faire le point sur les évolutions de la plateforme de données de l'éditeur.



Un peu de vocabulaire pour commencer :

- Microsoft Intelligent Data Platform désigne la suite logicielle qui permet de gérer les données et l’intelligence artificielle. Ses quatre facettes sont : La base données, l’analytique, la sécurité et l’intelligence artificielle : https://azure.microsoft.com/en-us/blog/the-microsoft-intelligent-data-platform-unleash-your-data-and-accelerate-your-transformation/
- Microsoft Fabric est le moteur de Microsoft Intelligent Data Platform
- Microsoft PowerBI est bien sur l’outil client permettant d’interroger sa plateforme de données, et de représenter graphiquement l’information
- Microsoft Pureview est l’outil de cataloguage, de sécurité, de gouvernance et de conformité proposé par Microsoft
- Microsoft Copilot est l’offre d’intelligence artificielle de Microsoft
- Microsoft OneLake est le lac de stockage données structurées ou non-structurées

Qu’y a-t-il de nouveau dans Microsoft Fabric depuis l’an dernier

- Microsoft Fabric se veut une plateforme complète, de bout en bout, intégrant tout le cycle de vie de la donnée, ainsi que les fonctions transverses de sécurité et de gouvernance. Fonctionnant en cloud, Microsoft Fabric aimerait être la solution unique choisie pour répondre à l’ensemble des besoins analytiques d’une entreprise. Pour cela, Microsoft Fabric se connecte à des sources de données externes et hétérogènes, en local ou en cloud, et vous propose de tout ramener dans Microsoft Fabric en cloud.

- La sécurité et la confidentialité des données sont bien sur au coeur de l’offre. Microsoft s’appuie sur l’ensemble de ses modules, en local ou en cloud, pour définir finement les niveaux de sensibilité et les droits d’accès à chacune des données. Microsoft Fabric sera également mieux intégré avec Microsoft Pureview, la solution de gouvernance, de conformité et de sécurité des données de l’éditeur. Ce modèle de gouvernance fédérée permet dans l’autre sens d’alimenter Microsoft Pureview à partir des données traitées dans Microsoft Fabric.

- Microsoft OneLake virtualise les données de vos différentes sources, pour les regrouper, sans duplication, dans une vue unique en cloud, même si elles sont stockées ailleurs. L’outil Mirroring permet de son côté de répliquer les données de Cosmos DB, Snowflake ou SQL DB, automatiquement dans OneLake. Vous pouvez, en sortie, donner accès à vos partenaires extérieurs à des données ou des jeux de données dans OneLake, sans copier les données, et de manière sécurisée.

- Il est également possible de créer dans Microsoft Fabric, des indicateurs calculés, qui seront partagés entre les différents domaines de l’entreprise. Ces indicateurs contiennent leur propre documentation, et leurs métadonnées. Ils peuvent être manipulés et affichés dans PowerBI, mais également réutilisés pour alimenter d’autres indicateurs.

- Et bien sur, l’IA est passée par là. Copilot l’outil d’IA générative de Microsoft est maintenant intégré à Microsoft Fabric. Copilot peut par exemple produire un résumé du contexte d’une donnée, ses métadonnées, son modèle sémantique, pour en simplifier la compréhension par l’utilisateur.
Dans Microsoft Fabric, l’IA va également être utilisée pour permettre à l’utilisateur de simplement sélectionner une source de données, et de poser en langage naturel les questions qu’il souhaite sur cette source. L’IA génèrera une requête SQL qu’elle présentera à l’utilisateur, lui permettant d’utiliser le résultat mais aussi de comprendre la requête et éventuellement de l’amender manuellement. En cela, l’IA prend tout son sens d’Intelligence Augmentée.

Et le data mesh, on en parle ?

Pas vraiment, mais il faut lire entre les lignes. Microsoft Fabric permet de gérer des modèles sémantiques de données, qui pourraient correspondre à des data products. Microsoft Data Factory peut prendre en charge le rafraîchissement et la mise à jour de ces modèles sémantiques. Reste à voir si l’utilisateur de chaque domaine métier peut vraiment créer lui-même ses jeux de données, avec l’appui de l’informatique pour leur industrialisation.

Dans Microsoft Fabric, l’administrateur peut créer des domaines métier, et des sous-domaines, et déléguer à un data steward, ou un data owner, de chaque domaine la définition, et la responsabilité, des règles d’accès propres à son domaine. Et les indicateurs créé dans Microsoft Fabric, documentés et partagés, permettent une meilleure réutilisation de l’information - on ne parle pas encore de data contract, mais nous en sommes proches.



Dans la même rubrique :