Faut-il bruler l’entrepôt de données traditionnel ?

Rédigé par Alain CLAPAUD le 4 Novembre 2013

Avec HANA, SAP propose une nouvelle approche du décisionnel. Sur le papier, l’in-memory et le stockage en colonnes permettent de travailler sur la donnée brute et non consolidée. Une approche radicale qui démode l’entrepôt de données traditionnel et ses chaines d’alimentation par lots nocturnes. Est-il temps de repartir d’une page blanche ?

Les technologies traditionnelles des entrepôts de données vont devoir cohabiter avec les équipements de nouvelle génération dans les salles blanches.

Le Data Warehouse traditionnel est-il démodé ? A écouter les déclarations des VP de SAP, menés à la bataille par le patriarche Hasso Plattner, la page est tournée. Les entrepôts de données statiques, mis à jour en temps différé avec des données agrégées faute de place, ont fait leur temps. Timo Elliott de SAP n’hésite pas à diaboliser (un peu) le directeur informatique en gardien du temple : « We don’t let people access the data warehouse – that would slow it down too much » que l’on pourrait traduire par « Ne laissons pas les utilisateurs accéder à l’entrepôt de données, ça le ralentirait trop. »
Avec l’abaissement des couts de stockage, l’arrivée des SSD et l’augmentation de la puissance des processeurs, réaliser des recherches en temps quasi-réel ou avec des temps de réponses acceptables, sans qu’il soit nécessaire de préparer le travail dans des datamarts, est maintenant une réalité. SAP pousse bien évidemment sa base en mémoire HANA pour conquérir le marché, avec un certain succès. Avec 2.100 clients et un chiffre d’affaires de 149 M€ (+79%) au dernier trimestre, HANA commence à trouver sa place alors que les ventes de licences traditionnelles de SAP s’essoufflent. HANA permet notamment d’accélérer SAP BW qui en avait bien besoin. SAP place désormais HANA en tant que composant central de l’Enterprise Data Warehouse (EDW), l’entrepôt de données global de l’entreprise et pour ceux qui considèreraient HANA comme une solution un peu trop légère vis-à-vis de leurs besoins, SAP leur propose Sybase IQ dès lors que les volumétries deviennent trop importantes. Sybase IQ est rangé dans la classe des bases peta-octiques par son éditeur.

Le data warehouse devient hybride

Jean-Michel Franco, directeur Solutions chez Business&Decision : « On aura toujours besoin des données traditionnelles, mais ce ne sera plus le composant central unique. A ses côtés, on a besoin d’un outil de recherche, de « discovery ».

Pour autant, quelle entreprise a mis au rebus les entrepôts de données « historiques » pour les remplacer par ces logiciels de nouvelle génération ? Mis en place à grands frais voici dix à quinze ans pour certaines, ces bases de données représentent encore la mémoire de l’entreprise et les arrêter risque de s’avérer bien plus compliqué que certains commerciaux SAP ne l’espèrent. Jean-Michel Franco, directeur Solutions chez Business&Decision explique : « Le data warehouse, c’est un peu comme le concept de longue traine : il permet de travailler la donnée dans le temps, sur la durée, mais il peut s’avérer beaucoup moins adapté lorsqu’il s’agit de travailler sur de la donnée non structurée, dont le schéma est établi a posteriori. C’est un nouveau cas d’usage. » Quel utilisateur Oracle Report ou BusinessObjects n’a pas rêvé de disposer d’un outil de type Qlikview pour explorer une idée ou plus simplement chercher l’origine d’une donnée. L’arrivée de salariés voulant disposer d’outils de navigation temps réel dans la donnée a interpelé tous les acteurs du secteur. Michel Bruley, directeur marketing de Teradata/Aster pour l’Europe le reconnait : « Pendant des années, la base de données Teradata devait traiter l’ensemble des besoins des entreprises en termes d’entrepôt de données. Mais, Teradata a évolué. Le Data warehouse a évolué : Cela fait maintenant 3 ans que nous produisons des serveurs intégrant des mémoires SSD et la prochaine version de notre base de données Teradata intègre le « in-memory » depuis sa V 14.10. »

Amaury Prévot-Leygonie, consultant BI et data Warehouse Senior chez Keyrus ajoute : « Pour moi, je vois 2 tendances importantes dans les data warehouses : d’un part l’arrivée des équipements spécialisés (les appliances) tels que j’ai pu tester chez Teradata et le Big Data. Les appliances, avec le stockage en colonnes des données et les SSD, offrent des performances de traitement des données extrêmement élevées, ça offre une toute nouvelle aisance à exploiter les données, les analyses. » L’autre phénomène, c’est Hadoop qui va venir relayer les ETLs sur un certain nombre de traitements où ils étaient à la peine : « i[Certains flux ETL pourront migrer vers Hadoop, je pense notamment au cas du Ministère de la Justice pour l’analyse des dossiers des prévenus. Ces documents peu structurés, tous différents avec de multiples relations internes se prêtent très mal à l’approche classique SQL : la migration vers Hadoop permet de simplifier l’analyse et gagner en vitesse] », explique Amaury Prévot-Leygonie qui ajoute : « Le Big Data, c’est via HDFS, la possibilité de stocker des données sans structure : on sort totalement de l’approche traditionnelle : les chaines de chargements ETL ne sont pas remises en cause, mais avec Hadoop on peut réaliser des calculs que l’on ne pouvait pas réaliser en SQL, c’est le V de variété avec Volume, vitesse et véracité. » Informatica, Talend… tous ont ajouté à leurs offres une brique ou au moins un interfaçage à des solutions MapReduce, et le déport d’un calcul de score sur un cluster Hadoop peut être piloté via l’ETL.

Le ‘Discovery’ se place en complément de l’entrepôt de données

Bousculé par les nouvelles technologies, l’entrepôt de données reste indéboulonnable en tant que fondement de la Business intelligence des entreprises. Il va devoir cependant cohabiter avec de nouvelles briques du système d’informations comme le souligne Jean-Michel Franco : « On aura toujours besoin des données traditionnelles, mais ce ne sera plus le composant central unique. A ses côtés, on a besoin d’un outil de recherche, de « discovery ». C’est ce que propose Teradata avec sa plateforme Aster qui va se positionner comme un outil agile, capable de travailler sur des données non structurées, un outil s’adressant à un nombre plus faible d’utilisateurs. Le concept de base qui fait tout, c’est fini. Même SAP, qui mise sur HANA, a fini par intégrer Sybase IQ dans le périmètre de son offre. Tous les éditeurs l’ont compris et ils ont maintenant tous Hadoop à leur catalogue. » L’enjeu de l’entrepôt de données du futur va être de faire cohabiter ces univers différents, sans multiplier, une fois de plus, les silos. Le Gartner a baptisé cette notion d’entrepôt de données « logique » (Logical Data warehouse) : un entrepôt de données unique d’un point de vue logique, mais constitué de plusieurs entrepôts de données, plusieurs datamarts et avec de multiples technologies sous-jacentes : relationnel, NoSQL, non structuré.

Michel Bruley espère que Teradata sera en avance et convaincre ses clients : « On offre plusieurs plates-formes, dont Aster et Hadoop. L’intégration de toutes nos offres est réalisée avec Teradata UDA (Unified Data Architecture) qui fait en sorte que ces différents composants parlent entre eux. L’entreprise va disposer d’une plate-forme analytique qu’elle va utiliser pour réaliser du discovery puis ensuite elle va industrialiser ses requêtes sur le data warehouse. »

L’entrepôt de donnée monolithique est mort, il est temps de passer à l’hybride !

Autres articles

Commentaires

Du plus récent au plus ancien | Du plus ancien au plus récent

11.Posté par ANDRIAMBOLOLONA le 23/11/2013 00:52

Merci de m'apprendre des choses que je n'ai pas évoquées dans mes articles. C'est la première fois que j'ai entendu parler de "entrepôts de données vectoriels". Quand je parle de base de données vectorielle associative , je fais référence au concept de base de donnée inventée par l'éditeur QlikTech qui est basée sur la technologie vectorielle associative 'In Memory" qui implique plusieurs choses qui n'ont rien à avoir avec les entrepôts de données tels que vous entendez
1- cette base de données est complètement en mémoire et je vois mal un entrepôt de données embarquées entièrement en mémoire
2- la structure de cette base de données est vectorielle qui permettra facilement la recherche associative excluant totalement le langage SQL
3 - l'accès aux données est tellement performant que l'on n' a plus besoin de préconstruire les cubes ni précalculer les métriques
Quand vous dites que tous les outils BI utilisent une base de données, je suis d'accord avec çà mais quand vous dites avec du SQL, et là je ne peux pas partager cette idée car à mon avis vous connaissez mal ou pas du tout la base de donnée associative de QlikView. Je vous invite à lire les articles sur ce nouveau concept de base de données écrits par l'éditeur QlikTech

10.Posté par Amaury Prévôt-Leygonie le 22/11/2013 16:05

Bonjour,
Je me permets de rebondir sur les propos de Mimosa. je remercie au passage AXEL ROUSSEL pour son article.
Les entrepots de données vectoriels sont des bases de données et non des entrepots de données accessibles en NoSQL. Les outils (BO, Qlikview, Crystal reports, Microstrat et consorts) sont soit orientés Reporting de masses(Crystal, Liberty...) soit Buisness intelligence (Qlickview, Prism...). Tous utilisent une base de données (SGBDR, Base colonnes, Base vectorielle, Appliance...) avec des lignes, des colonnes et du SQL.
Pour l'instant, l'utilisateur aura toujours accès à des données en base, qui pourront, le cas echeant etre issues d'entrepots de données accessibles en NoSQL(HDFS ou autre).
Cordialement,

http://aprevotleygonie@wordpress.com

9.Posté par ANDRIAMBOLOLONA Minosoa le 14/11/2013 23:17

J'ai compris maintenant votre problematique mais en fait on ne travaille pas du tout dans le meme contexte j'ai perdu de vue le fait que vous etes dans le reporting de masse et l'outil que j'utilise n'a pas ete concu pour les grosses editions et les grosses saisies de donnees mais il est oriente analyse de donnees permettant la prise de decision immediate mais dont les sources de donnees sont les applications metiers
Cette technologie n'a pas la pretention de tout faire et a ete concue pour rendre facile et efficace la prise de decision. Et cet outil s'adresse aux decideurs qui ont besoin d'une reponse rapide afin de pouvoir prendre une decision sur le champ car il est en fait oriente rapport dynamique 'discovery' et non statique
D'apres son editeur, il est capable de supporter des milliers d'utilisateurs lorsque il fonctionne en mode clustering. Il n'est pas limite a quelques dizaines d'utilisateurs comme on laisse suppose

8.Posté par Bruno Le François le 14/11/2013 15:31

Bien...
Admettons que mon datawarehouse ait été migré dans la "base vectorielle associative in memory de qlikview" ... jusque là, je suis d'accord, ça claque ...

D'ailleurs, mes quelques utilisateurs qui ont réellement besoin de qlikview sont ravis... jusque la, tout va pour le mieux...

J'ai 1000 utilisateurs qui ont besoin d'accéder à quelques tableaux de bord prédéfini (quelques sélection basiques, et le rapport doit être sortit en PDF à la demande)
... un besoin, somme toute très simple, adressé jusque aujourd'hui avec un outil de reporting open source interrogeant le datawarehouse.

-> Je fais comment ? (précision : budget licence = 0 ! )

A côté de ça, mon datawarehouse, qui était complètement intégré à mon système d'information, pouvait :
- être interrogé directement en SQL par certaines applications métiers développées en interne
- alimentait des indicateurs disponibles sur l'intranet
- alimentait les outils d'élaboration budgétaire et y collectait les données saisies.

La technologie est très belle, mais elle ne fait pas tout ...

Je ne m'accroche pas à mes acquis, j'essaye juste de répondre aux besoins métiers avec des propositions ciblées, adaptées au contexte, et non en proposant exclusivement l'outil que je maîtrise.

http://www.pragmit.fr

7.Posté par ANDRIAMBOLOLONA le 14/11/2013 07:53

Compromis entre datawarehouse et base de données vectorielle associative 'In Memory'
Pour ne pas frustrer les personnes qui s'accrochent toujours au datawarehouse donc à leurs acquis, sachant que les données historiques se trouvent actuellement dans ces entrepots de données, il est d'usage d'utiliser ces datawarehouses en amont des applications à refondre ou à migrer vers des outils comme QlikView afin d'alimenter les bases associatives décisionnelles qui vont servir de socles dorénavant
Par contre on ne peut pas imager de continuer avec des datawarehouses quand il s'agit de mettre en place une nouvelle application à des outils innovants comme QlikView dont la technologie est basée sur l'architecture vectorielle associative doublée de travail 'In Memory'. C’est cette technologie rend caduque la technologie qui est basée sur l’architecture multidimensionnelle qui consiste à préconstruire les cubes et préétablir les calculs afin de pouvoir agréger les données brutes
La technologie vectorielle associative permet de créer les cubes en temps réel et à la volée
c'est cette performance là que l'on attendait depuis fort longtemps dans le contexte BI
et non la performance "à tout prix"

6.Posté par Bruno Le François le 12/11/2013 14:18

"je ne peux me permettre de dire que le datawarehouse a encore de l’avenir devant lui."

Ne vous permettez pas de le dire, mais laissez moi le dire ;-)

Je ne remets pas en cause les qualités de l'outil (de qlikview ou des autres solutions "innovantes"), je ne remets pas non plus en cause votre expérience.
Mais vous semblez ne pas croire qu'il existe des entrepôts de données bien conçus qui donnent satisfaction...

Vous remarquerez que je ne défends aucun éditeur particulier, je note juste que vouloir appliquer systématiquement une solution telle que qlikview, intéressante dans certains contextes, est un non sens.

La recherche de la performance "a tout prix" ne sert à rien. A quoi bon jeter par le fenêtre un entrepôt de données qui réponds aux besoins du business ?

http://www.pragmit.fr

5.Posté par ANDRIAMBOLOLONA le 12/11/2013 12:22

J'ai l'impression que certaines personnes ne voient dans QLIKVIEW que la qualité de visualisation. Mais quand ils disent qu'il est très intéressant de point de vue de performances. C'est là quand on se pose la bonne question: d'où vient cette performance? et pourquoi. J’ invite de nouveau à relire mon précédent article car justement j'ai beaucoup insisté sur l'architecture technique de cet outil. C'est cette architecture qui fait que cet outil est très performant dans la réalisation d'un projet décisionnel et qui amène une souplesse d'utilisation pour les utilisateurs finaux et une démarche innovante dans la conception et réalisation d'une application décisionnelle. Avec cet outil, 'vous embarquez en mémoire toute votre base de données à analyser. Il vous permet de créer les cubes de manière dynamique, en d'autres termes à la volée et je ne peux me permettre de dire que le datawarehouse a encore de l’avenir devant lui quand on voit ce que l’on peut faire avec les bases de données décisionnelles ‘In Memory’. Son architecture vectorielle permet une recherche associative et par conséquent l’utilisateur final fait de la sélection en mode NON SQL et cela implique pour lui une analyse rapide et efficace
Et enfin la dernière chose que je n’ai pas bien appréhendé c’est que le positionnement de QLIKVIEW dérange certaines personnes. C’est bien normal que lorsque un outil innovant arrive sur le marché et qu’il met en cause le bienfondé de ces concurrents, donc il dérange. On regarde toujours les choses de point de vue commercial. A mon humble avis, cet outil tire les autres à aller vers le haut et même pour les dirigeants qui viennent à prendre des décisions à un instant T, ils doivent disposer d’un outil efficace et performant qui leur permet de prendre une décision de manière rapide pour faire face aux concurrents et non pas à attendre un reporting qui ne vient que quelques minutes plus tard voire même plus
Pour conclure, je tiens à informer que j'ai été amené la plupart du temps à faire de la migration des applications réalisées avec les outils BI traditionnels vers QLIKVIEW. Cette démonstration est basée sur des faits réels et non sur des suppositions comme on l'insinue ailleurs Cela m'a permis de bien comprendre l'avenir du BI et de comment se préparer à l'évolution technologique dans ce domaine

4.Posté par Bruno Le François le 11/11/2013 21:10

Comme toujours, la démonstration est basée sur des suppositions, et non sur des faits...
Vous supposez que les utilisateurs qui ne disposent pas de qlikview ne disposent pas des données dont ils ont besoin : C'est très souvent faux ... Un datawarehouse bien conçu doit permettre de répondre aux questions que l'utilisateur ne se pose pas encore ! et l'intégration de nouveaux axes d'analyse peut se faire très rapidement. Tout ceci n'est qu'une question de modélisation et n'a rien a voir avec le ou les outils de restitution.
En suggérant d'essayer Qlickview, vous supposez également qu'on ne peut pas défendre les architectures "classiques" en connaissant cet outil... je ne me permettrais pas de critiquer ce que je ne connais pas !
D'ailleurs, je ne critique pas tant l'outil, qui d'un point de vue performances et qualité de visualisation est très intéressant. C'est plus sont positionnement qui me dérange...

Un datawarehouse permet de capitaliser sur la donnée, elle peut très bien être utilisée dans un outil de reporting classique (voir open source), comme dans un outil tel que Qlikview. Avec Qlikview seul, point de salut en dehors de l'achat de licences par centaines !
Un datawarehouse permet de mettre en oeuvre une véritable stratégie d'accès aux données. Il arrive parfois que certains utilisateurs se plaignent de ne pas avoir accès à certaines données et préféreraient faire ce qu'ils veulent dans un outil tel que Qlikview. Mais si l'accès à certaines données ne leur est pas attribué, cela n'est pas une question d'outil, mais tout simplement de contrôle interne.

Qlikview est un outil très intéressant. Dans certains cas d'utilisation biens précis, il peut sans doute se suffire à lui même. Mais dans d'autres cas, il peut devenir un complément intéressant à une architecture BI classique.
Toute solution qui enferme la donnée dans un système propriétaire ne laissant comme possibilité de restitution que l'outil de l'éditeur, soumis à licence ; n'est à mon sens pas faite pour être l'épine dorsale d'un système décisionnel.

http://www.pragmit.fr

3.Posté par ANDRIAMBOLOLONA le 09/11/2013 23:11

Faut-il ringardiser le DATAWAREHOUSE ?
Quand un utilisateur analyse ses données avec les outils BI traditionnels tels BO, Cognos, MicroStrategy,SAP,etc, il ne peut pas avoir une liste exhaustive des questions à appliquer au datawarehouse à un instant T. Vous savez très bien que avec l'approche traditionnelle en BI , les utilisateurs sont obligés de remonter à l'informatique leurs questions qui ne trouvent pas de réponse dans la base datawarehouse au moment de l'analyse et là ils doivent attendre des heures sinon des jours pour pouvoir avoir les réponses à leurs questions. Voilà pourquoi les éditeurs de solutions innovantes cherchent à ringardiser l'utilisation du datawarehouse. Avec leurs outils innovants, les utilisateurs sont capables de faire de l'analyse à la volée avec la base vectorielle in memory dans laquelle ont été chargées les données non agrégées et même s'ils oublient de poser la bonne question, l'outil innovant est capable de les ramener vers la bonne réponse en procédant par tatillon et ils n'ont plus besoin de remonter leurs questions à l'information pour les intégrer dans le datawarehouse
Essayez l'outil comme QLIKVIEW, vous allez constater par vous-même que le datawarehouse ne servira plus à rien et vous allez gagner énormément du temps et surtout de l'argent surtout lorsque l'on pense que pour mettre en place un datawarehouse il faut des mois voire des années cela implique même des fois d'arrêter purement et simplement le projet
Par contre beaucoup d'éditeurs essaient maintenant de parler de base de données 'In Memory' comme chez QLIKTECH, je pense que c'est vraiment une très bonne idée d'aller vers cette technologie surtout que la mémoire RAM de l'ordinateur peut avoir une taille vraiment considérable avec la structure à 64bits et avec cette technologie on peut mettre en mémoire des milliards d'enregistrements (voire les résultats des tests effectués dans le laboratoire de QLIKTECH (Manuel QlikView)). Seulement voilà la base de donnée 'In Memory' conçue avec QLIKVIEW est basée sur une architecture VECTORIELLE qui va permettre de manière efficace et simple la RECHERCHE ASSOCIATIVE . C'est cette architecture vectorielle que l'on ne voit pas chez les autres éditeurs. Il ne suffit pas de mettre en mémoire les données encore faut-il savoir les utiliser et exploiter de façon simple et efficace pour les utilisateurs finaux. Cela se voit dans la manière de faire de la sélection de données car pour moi je constate habituellement avec QLIKVIEW que c'est la NON SQL qui prévaut pour faire de la requête dans la base de données associative 'In Memory' et cela permet par conséquent aux utilisateurs de faire une analyse de manière rapide et efficace

2.Posté par Bruno Le François le 08/11/2013 16:56

Souvent, les éditeurs de solutions "innovantes" cherchent à ringardiser l'existant pour mettre en valeur leurs nouvelles solutions, souvent performantes, mais sur lesquelles il n'y a aucun recul. C'est un peu le propos de SAP qui est décrit dans la première partie de cet article.

Ainsi, l'entrepôt de données est souvent présenté comme un concept vieillissant, car il date déjà de plus de 20 ans.
L'hybridation du Datawarehouse avec de nouveaux outils, de nouvelles technologie existe déjà depuis longtemps et l'approche entrepôt de données traditionnelle, reste, et restera à mon sens, un socle important pour répondre à une grande partie des besoins métiers.
C'est dans ce sens que je me rapproche de la suite de cet article et que j'adhère totalement au commentaire précédent.

http://www.pragmit.fr

Nouveau commentaire :

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.

Dans la même rubrique :

BNP Paribas signe un partenariat avec Oracle pour renforcer sa stratégie cloud - 09/01/2025

Snowflake renforce la collaboration cross-cloud pour les données d'entreprise et l'intelligence artificielle - 21/11/2024

Snowflake unifie les données transactionnelles et analytiques avec la disponibilité générale des Hybrid Tables - 21/11/2024

Neo4j dépasse les 200 millions de dollars de chiffre d’affaires et accélère son leadership dans le domaine de la GenAI grâce à sa technologie de graphes - 20/11/2024

Faut-il bruler l’entrepôt de données traditionnel ?

Le data warehouse devient hybride

Le ‘Discovery’ se place en complément de l’entrepôt de données

BNP Paribas signe un partenariat avec Oracle pour renforcer sa stratégie cloud

Qlik améliore l’intégration avec SAP, Databricks et Snowflake et favorise la création de valeur grâce à l’IA

Teradata lance des cas d’usage d’IA générative à démarrage rapide grâce à l’intégration d’Amazon Bedrock

Oracle Database@Azure disponible dans de nouvelles régions et avec de nouveaux services pour répondre à la demande mondiale

Teradata nomme Louis Landry au poste de Chief Technology Officer

BNP Paribas signe un partenariat avec Oracle pour renforcer sa stratégie cloud - 09/01/2025

Snowflake renforce la collaboration cross-cloud pour les données d'entreprise et l'intelligence artificielle - 21/11/2024

Snowflake unifie les données transactionnelles et analytiques avec la disponibilité générale des Hybrid Tables - 21/11/2024

Neo4j dépasse les 200 millions de dollars de chiffre d’affaires et accélère son leadership dans le domaine de la GenAI grâce à sa technologie de graphes - 20/11/2024

Starburst annonce une capacité d’ingestion de données en streaming de 100 Gb/seconde depuis Apache Kafka vers les tables Apache Iceberg - 06/11/2024