Depuis 1996, date des débuts de Microsoft dans la Business Intelligence avec le rachat de Plato, l’environnement technologique a beaucoup évolué. Les bases de données relationnelles commencent à être dépassées, sur certains types de données, par de nouvelles technologies ; le « cloud computing » a émergé ; et Google est devenu grâce à son moteur de recherche, le géant que l’on connaît.
C’est sans doute l’analyse de ces deux dernières tendances qui a conduit Microsoft à formaliser les bases d’une nouvelle génération d’outils d’analyse.
Concernant le cloud computing, Microsoft a développé son offre Azure et compte bien faire migrer le plus de clients possible vers des données et des applications hébergées sur ces serveurs (synonyme également de revenu récurrent). Et même si des bases de données relationnelles peuvent parfaitement être stockées dans le nuage, les nouveaux types de données, non-structurées, conduisent plutôt à utiliser des bases dites « no-SQL ». Chez Microsoft, deux projets sont menés en parallèle dans ce domaine des nouvelles bases de données pour le cloud : Trinity et Probase.
C’est sans doute l’analyse de ces deux dernières tendances qui a conduit Microsoft à formaliser les bases d’une nouvelle génération d’outils d’analyse.
Concernant le cloud computing, Microsoft a développé son offre Azure et compte bien faire migrer le plus de clients possible vers des données et des applications hébergées sur ces serveurs (synonyme également de revenu récurrent). Et même si des bases de données relationnelles peuvent parfaitement être stockées dans le nuage, les nouveaux types de données, non-structurées, conduisent plutôt à utiliser des bases dites « no-SQL ». Chez Microsoft, deux projets sont menés en parallèle dans ce domaine des nouvelles bases de données pour le cloud : Trinity et Probase.
Bases de données associatives et graphiques
Le projet Trinity est celui d’une base de données à modèle graphique, fonctionnant en mémoire, et capable de représenter des associations entre éléments. Trinity récupère dans le nuage les données à représenter, les modélise en mémoire et publie une API qui permet à un moteur graphique de représenter l’information et d’y naviguer. D’autres bases de données de ce type existent sur le marché comme Neo4j, InfiniteGraph ou encore HyperGraphDB.
L’autre projet, Probase, est encore plus intéressant. Il se rapprocherait d’un outil de gestion de la connaissance, créant des associations entre les concepts afin de regrouper les savoirs, un peu comme le cerveau humain le ferait (toutes proportions gardées bien entendu). L’élément le plus intéressant dans Probase, et pas le plus simple à comprendre et à expliquer, tient au fait que les relations entre les éléments sont affectées d’une probabilité. Essayons…
L’autre projet, Probase, est encore plus intéressant. Il se rapprocherait d’un outil de gestion de la connaissance, créant des associations entre les concepts afin de regrouper les savoirs, un peu comme le cerveau humain le ferait (toutes proportions gardées bien entendu). L’élément le plus intéressant dans Probase, et pas le plus simple à comprendre et à expliquer, tient au fait que les relations entre les éléments sont affectées d’une probabilité. Essayons…
Puisque nous sommes en période d’examen, imaginons que nous tentions d’analyser le salaire à l’embauche de jeunes diplômés en fonction de la catégorie socio-professionnelle de leurs parents. Nous disposons d’une liste des catégories socio-professionnelles, d’une liste des types de diplômes et d’une échelle des salaires. Nous allons créer une relation de probabilité entre les catégories socio-professionnelles et les diplômes, qui contiendra une probabilité de réussite ; puis une autre association entre diplôme et niveau de salaire, là encore sous forme de probabilité. L’association des trois tables permettra d’estimer le niveau de salaire d’embauche en fonction de la CSP des parents (voir schéma). Probase permettrait de gérer ce type d’associations probabilistes, partant du principe qu’une relation dans la vie réelle n’est pas unique, mais assortie d’une probabilité. Seules des relations « administratives » bien adaptées aux bases relationnelles, sont uniques (numéro de facture, compte client, date de règlement). Les nouvelles données issues du web, de la collecte des données non-structurées sont moins normées et cette nouvelle forme d’association probabilisée leur convient mieux.
Dans ces deux projets, la notion d’association semble s’imposer: association des données, des champs, des concepts… On retrouve ici des éléments de la « BI associative » telle que présentée par QlikView par exemple. L’association est la nouvelle forme de jointure que l’on connaît entre les tables d’une base de données relationnelle.
Dans ces deux projets, la notion d’association semble s’imposer: association des données, des champs, des concepts… On retrouve ici des éléments de la « BI associative » telle que présentée par QlikView par exemple. L’association est la nouvelle forme de jointure que l’on connaît entre les tables d’une base de données relationnelle.
Le moteur de recherche au coeur des futurs outils ?
Révolution également du côté des outils d’interrogation et de manipulation de données. Le requêteur SQL et ses dérivés qui produisent du reporting structuré à longueur de pages semblent obsolètes dans ces nouvelles architectures. C’est du côté des moteurs de recherche que cela se passe. Google a montré l’exemple, capable d’exécuter des millions de requêtes complexes tout en mettant à jour ses bases et en indexant au fil de l’eau. Exalead, éditeur précurseur et donc un peu seul dans le domaine des SBA (Search Based Applications) a adapté l’idée aux applications d’entreprises. Chez Microsoft, il semble que le futur des outils d’interrogation et d’analyse se situe plus autour de Bing, le moteur de recherche maison, que des classiques Excel ou Powerpivot. Pourquoi ne pas imaginer en effet ajouter des fonctions avancées de présentation, d’analyse, de calcul à un moteur de recherche efficace et en faire l’outil de BI de demain ?
Chez Microsoft, il semble que cette combinaison « Azure + Bing » soit une des pistes privilégiées pour définir cette nouvelle génération d’outils d’aide à la décision. Ce qui n’est pas sans créer quelques tensions en interne dans la répartition des rôles, et l’affectation des tâches aux différentes divisions. Bing fait en effet partie de la division « Online Services » et Azure est rattaché à « Server & Tools business ». Mais signe de cette réorganisation, c’est Satya NADELLA, précédemment en charge de « Online Services » qui a remplacé Bob MUGLIA à la tête de la division « Server & Tools business » avec l’intention d’appliquer ici ce qu’il a appris en développant Bing.
Si l’on tente de dresser un schéma rapide de ce que pourraient être ces nouvelles générations d’outils décisionnels à la marque Microsoft, on aboutit à :
- une solution en mode hébergé, sur le nuage Microsoft Azure
- proposant un moteur de recherche pour collecter des données et les conserver en mode « no-SQL »
- puis une base de données associative pour comprendre et analyser les relations entre les informations ; c’est la phase de création de valeur
- enfin des outils de représentation graphique et de navigation naturelle dans les données. Sur ce dernier point, nous vous présenterons prochainement différentes technologies et prototypes. Microsoft n’est pas très en avance sur ce point, coincé par sa plateforme Silverlight. Mais l’ouverture de Kinect aux applications d’entreprise va créer de nouveaux usages.
Chez Microsoft, il semble que cette combinaison « Azure + Bing » soit une des pistes privilégiées pour définir cette nouvelle génération d’outils d’aide à la décision. Ce qui n’est pas sans créer quelques tensions en interne dans la répartition des rôles, et l’affectation des tâches aux différentes divisions. Bing fait en effet partie de la division « Online Services » et Azure est rattaché à « Server & Tools business ». Mais signe de cette réorganisation, c’est Satya NADELLA, précédemment en charge de « Online Services » qui a remplacé Bob MUGLIA à la tête de la division « Server & Tools business » avec l’intention d’appliquer ici ce qu’il a appris en développant Bing.
Si l’on tente de dresser un schéma rapide de ce que pourraient être ces nouvelles générations d’outils décisionnels à la marque Microsoft, on aboutit à :
- une solution en mode hébergé, sur le nuage Microsoft Azure
- proposant un moteur de recherche pour collecter des données et les conserver en mode « no-SQL »
- puis une base de données associative pour comprendre et analyser les relations entre les informations ; c’est la phase de création de valeur
- enfin des outils de représentation graphique et de navigation naturelle dans les données. Sur ce dernier point, nous vous présenterons prochainement différentes technologies et prototypes. Microsoft n’est pas très en avance sur ce point, coincé par sa plateforme Silverlight. Mais l’ouverture de Kinect aux applications d’entreprise va créer de nouveaux usages.
Autres articles
-
Oracle Database@Azure disponible dans de nouvelles régions et avec de nouveaux services pour répondre à la demande mondiale
-
Teradata AI Unlimited pour Microsoft Fabric est désormais disponible en avant-première via Microsoft Fabric Workload Hub
-
Semarchy devient partenaire Microsoft Purview pour l’intégration du Master Data Management
-
Le workload Teradata AI Unlimited sur Microsoft Fabric est désormais disponible en avant-première privée
-
Dremio Cloud, solution de Data Lakehouse permettant d’accéder et de diffuser les données en self-service, est désormais disponible sur Microsoft Azure