Didier Kirszenberg, Responsable des architectures Massive Data chez HP France
Les SGBD (systèmes de gestion de bases de données) perdurent mais ils sont remis en question par le Big Data, même s’ils continuent de remplir leurs bons offices.
Rappelons tout d’abord que les SGBD se rangent en 3 domaines cibles :
- le décisionnel,
- le transactionnel,
- le « décisionnel temps réel » (à l’intersection des 2 premiers domaines).
Le décisionnel : le Big Data fait mieux
C’est dans le domaine du décisionnel que les SGBD sont le plus challengés. Car le décisionnel est la vocation première des technologies Big Data, qui, en la matière, vont plus loin que les SGBD traditionnels.
Car le Big Data apporte des « plus » indéniables :
- la possibilité de traiter du semi–structuré et du non-structuré (c’est-à-dire, traiter toutes les sources de données pour comprendre le comportement) ;
- la généralisation de l’analytique (avec la capacité de traiter toutes les données et pas seulement un échantillon, et donc d’aller de la tendance vers le traitement des exceptions) ;
- la possibilité de passer du DataWarehouse au DataLake (la donnée peut être structurée a posteriori ; on peut alors envisager un référentiel de données unique).
L’impact sur les compétences professionnelles recherchées est évident. On recherche notamment des data-scientists, dont le profil est, grosso modo, une évolution de celui des statisticiens.
Les technologies du Big Data induisent un certain nombre de changements par rapport au décisionnel historique.
- Changement de nature des données :
Dans la BI (Business Intelligence) traditionnelle, la qualité des données procède principalement de la réconciliation des sources.
Dans le Big Data, du fait que la donnée provient d’un « capteur » (site web, systèmes informatiques, systèmes de fabrications, centre d’appel, caméra vidéo, flux Twitter..), la qualité des data repose d’abord sur la validité des ‘Time stamps’ (tickets d'horodatage).
- Changement de magnitude ou volumétrie :
Dans la BI, on recherche en général les grandes tendances. Et, notamment pour des raisons de coûts, on se contentait de traiter des échantillons et on rejetait les données atypiques ou « mal calibrées ». Avec le Big Data, on traite toute la donnée, ce qui permet de s’intéresser aussi aux «signaux faibles ». Il faut alors « nettoyer » l’ensemble de la donnée, tout en conservant ce qui est atypique.
- Changement dans la manière d’obtenir de la performance :
Pour beaucoup de produits, il n’est plus nécessaire de passer par des agrégats, ni par des indexes.
- Changement dans les processus de production :
La gestion de traitements massivement parallèles est généralisée. Il n’est plus utile de sauvegarder la totalité des données, surtout qu’elles peuvent peser plusieurs péta-octets.
A noter aussi que le choix des technologies peut s’opérer en fonction du type de traitement mathématique (Hadoop, bases en colonnes, bases graphes, bases documents…)
Le Décisionnel Temps réel : une demande croissante avec Hadoop
Le décisionnel en temps réel est une évolution récente de l’écosystème Hadoop. C’est la capacité de traiter en quasi temps réel des volumes très importants.
Hadoop évolue pour devenir plus performant. On passe d’un traitement parallélisé sur disque à un traitement parallélisé en mémoire.
L’écosystème Big Data peut aussi bénéficier de produits comme Vertica qui présentent des temps de traitement inférieurs à la seconde sur d’énormes volumes de données en jouant à la fois sur la parallélisation sur disque et le traitement en mémoire.
Le Transactionnel : le moins bien couvert par le Big Data
Le transactionnel reste le domaine aujourd’hui le moins bien couvert par le Big Data. La raison principale en est que la plupart des produits ne sont pas encore au niveau d’exigences ‘ACID’ (Atomicity, Consistency, Isolation, Durability – ensemble de critères de fiabilité des bases transactionnelles de référence).
Ceci dit, l’écosystème Big Data évolue très vite. Ce qui est faux aujourd’hui peut devenir vrai dans quelque années voire quelques mois.
A ce titre, voir, par exemple, le projet www.trafodion.org . Ce programme de développement Open Source 'Trafodion.org' (Apache Transactional SQL-on-HBase ; soutenu par HP) vise à rajouter à Hadoop des capacités transactionnelles capables de sécuriser des requêtes SQL élargies à de très gros volumes de data.
Les freins au remplacement
A nouvelles technologies, nouvelles compétences ! Il devient important de repérer les acteurs qui maitrisent réellement le sujet (et ne veulent pas enfermer les clients dans de nouvelles approches « propriétaires »).
De plus en plus d’outils de requêtes se connectent nativement aux technologies Big Data et Hadoop est devenu le socle de référence, comme par exemple chez un acteur historique comme SAS. Il n’en reste pas moins que les clients ont souvent des existants imbriqués et « propriétaires » (les procédures stockées, entre autres) et que les applications métiers ou ERP tournent aujourd’hui sur des bases transactionnelles classiques
Le plus simple et le plus rapide est sans doute de démarrer les technologies Big Data sur de nouveaux projets et de nouvelles sources de données et d’examiner ensuite comment transférer progressivement sur cet environnement les sujets qui en tireront le meilleur parti.
Rappelons tout d’abord que les SGBD se rangent en 3 domaines cibles :
- le décisionnel,
- le transactionnel,
- le « décisionnel temps réel » (à l’intersection des 2 premiers domaines).
Le décisionnel : le Big Data fait mieux
C’est dans le domaine du décisionnel que les SGBD sont le plus challengés. Car le décisionnel est la vocation première des technologies Big Data, qui, en la matière, vont plus loin que les SGBD traditionnels.
Car le Big Data apporte des « plus » indéniables :
- la possibilité de traiter du semi–structuré et du non-structuré (c’est-à-dire, traiter toutes les sources de données pour comprendre le comportement) ;
- la généralisation de l’analytique (avec la capacité de traiter toutes les données et pas seulement un échantillon, et donc d’aller de la tendance vers le traitement des exceptions) ;
- la possibilité de passer du DataWarehouse au DataLake (la donnée peut être structurée a posteriori ; on peut alors envisager un référentiel de données unique).
L’impact sur les compétences professionnelles recherchées est évident. On recherche notamment des data-scientists, dont le profil est, grosso modo, une évolution de celui des statisticiens.
Les technologies du Big Data induisent un certain nombre de changements par rapport au décisionnel historique.
- Changement de nature des données :
Dans la BI (Business Intelligence) traditionnelle, la qualité des données procède principalement de la réconciliation des sources.
Dans le Big Data, du fait que la donnée provient d’un « capteur » (site web, systèmes informatiques, systèmes de fabrications, centre d’appel, caméra vidéo, flux Twitter..), la qualité des data repose d’abord sur la validité des ‘Time stamps’ (tickets d'horodatage).
- Changement de magnitude ou volumétrie :
Dans la BI, on recherche en général les grandes tendances. Et, notamment pour des raisons de coûts, on se contentait de traiter des échantillons et on rejetait les données atypiques ou « mal calibrées ». Avec le Big Data, on traite toute la donnée, ce qui permet de s’intéresser aussi aux «signaux faibles ». Il faut alors « nettoyer » l’ensemble de la donnée, tout en conservant ce qui est atypique.
- Changement dans la manière d’obtenir de la performance :
Pour beaucoup de produits, il n’est plus nécessaire de passer par des agrégats, ni par des indexes.
- Changement dans les processus de production :
La gestion de traitements massivement parallèles est généralisée. Il n’est plus utile de sauvegarder la totalité des données, surtout qu’elles peuvent peser plusieurs péta-octets.
A noter aussi que le choix des technologies peut s’opérer en fonction du type de traitement mathématique (Hadoop, bases en colonnes, bases graphes, bases documents…)
Le Décisionnel Temps réel : une demande croissante avec Hadoop
Le décisionnel en temps réel est une évolution récente de l’écosystème Hadoop. C’est la capacité de traiter en quasi temps réel des volumes très importants.
Hadoop évolue pour devenir plus performant. On passe d’un traitement parallélisé sur disque à un traitement parallélisé en mémoire.
L’écosystème Big Data peut aussi bénéficier de produits comme Vertica qui présentent des temps de traitement inférieurs à la seconde sur d’énormes volumes de données en jouant à la fois sur la parallélisation sur disque et le traitement en mémoire.
Le Transactionnel : le moins bien couvert par le Big Data
Le transactionnel reste le domaine aujourd’hui le moins bien couvert par le Big Data. La raison principale en est que la plupart des produits ne sont pas encore au niveau d’exigences ‘ACID’ (Atomicity, Consistency, Isolation, Durability – ensemble de critères de fiabilité des bases transactionnelles de référence).
Ceci dit, l’écosystème Big Data évolue très vite. Ce qui est faux aujourd’hui peut devenir vrai dans quelque années voire quelques mois.
A ce titre, voir, par exemple, le projet www.trafodion.org . Ce programme de développement Open Source 'Trafodion.org' (Apache Transactional SQL-on-HBase ; soutenu par HP) vise à rajouter à Hadoop des capacités transactionnelles capables de sécuriser des requêtes SQL élargies à de très gros volumes de data.
Les freins au remplacement
A nouvelles technologies, nouvelles compétences ! Il devient important de repérer les acteurs qui maitrisent réellement le sujet (et ne veulent pas enfermer les clients dans de nouvelles approches « propriétaires »).
De plus en plus d’outils de requêtes se connectent nativement aux technologies Big Data et Hadoop est devenu le socle de référence, comme par exemple chez un acteur historique comme SAS. Il n’en reste pas moins que les clients ont souvent des existants imbriqués et « propriétaires » (les procédures stockées, entre autres) et que les applications métiers ou ERP tournent aujourd’hui sur des bases transactionnelles classiques
Le plus simple et le plus rapide est sans doute de démarrer les technologies Big Data sur de nouveaux projets et de nouvelles sources de données et d’examiner ensuite comment transférer progressivement sur cet environnement les sujets qui en tireront le meilleur parti.
Autres articles
-
Snowflake vs Hadoop : lequel choisir ?
-
Les évolutions de Hadoop en 2022
-
[Promotion] Livre Blanc Alteryx : La science des données en pratique
-
Maîtriser ses données sur le Cloud : l'ESILV apprend aux étudiants à dompter le Big Data sur 120 machines
-
Teradata poursuit ses avancées dans le cloud grâce à l'élargissement de ses offres en analytique cloud et son nouveau partenaire Google Cloud