Big Data et Appliances in-memory, bienvenu dans la BI du futur ?


Rédigé par Pierre FORMOSA, Umanis le 15 Avril 2013

Une meilleure exploitation d'importants volumes de données devient un enjeu primordial pour soutenir la croissance des entreprises mais également un véritable atout concurrentiel.
C'est pourquoi le Big Data est de plus en plus pris au sérieux par les organisations soucieuses de « capter » la valeur des informations afin d'affiner leurs stratégies commerciales, mieux innover et anticiper. Le pilotage de la stratégie d'entreprise par les données devient une réalité grâce au Big Data.



Pierre Formosa, Responsable avant-vente et Big Data Practice Manager
Mais comment s'y retrouver dans le déluge des offres proposées ? Une chose est sûre, la BI classique est arrivée au terme de ses capacités et dorénavant les maitres mots sont : absorption de volumétrie exponentielle, traitements temps réel et hétérogénéité des sources. En effet, chaque entreprise dispose de plusieurs gisements d'informations (transactions, données métiers, clients, etc.) et en théorie les moyens de les exploiter via les technologies décisionnelles ; mais dans les faits, les systèmes BI traditionnels d'ancienne génération peinent à suivre les rythmes changeant des métiers. Ils n'arrivent pas à absorber, dans des délais et avec des niveaux de performance acceptables, ni le nombre d'utilisateurs, ni le volume croissant de données issues de sources aussi diverses qu'hétérogènes. La DSI se retrouve confrontée aux exigences métiers d'un côté et aux contraintes technologiques de l'autre. Se pose alors de plus en plus fréquemment les questions suivantes : quel compromis trouver entre prix et performance ? Comment accélérer la mise en œuvre des nouvelles applications pour les analyses opérationnelles et les activités de BI ? Comment faire évoluer son architecture en ajustant la charge de traitement pour les bonnes données au juste coût et au bon niveau de performance ? Comment gagner en capacité de gestion du cycle de vie de données massives, structurées ou non ?

Rapidement, comment peut-on décrire le Big Data ?
Les données ne sont pas intelligentes par elles-mêmes ni pour elles-mêmes. Le volume ne les rend pas davantage intelligentes, et le fait qu'il s'agisse de données non structurées et structurées produites en temps réel et en flux continus issues de sources hétérogènes rend plus délicat encore l'identification de l'information pertinente. Par ailleurs, quand on parle de Big Data, il est intéressant de se poser la question de savoir ce que l'on entend par rapport au « Small Data ». Contrairement au « small data », le « Big Data » est une notion qui intègre aux données de l'entreprise, des données générées à l'extérieur de l'entreprise à partir de source de données hétérogènes (médias sociaux, capteurs, logs complexes, matériels mobiles, médias, …). Le processus d'analyse de ce volume de données s'en trouve donc complexifié et les pratiques de la Business Intelligence doivent évoluer pour s'adapter. Les grands éditeurs de la BI dite « traditionnelle » (bases de données, requêtage,…) se sont tous lancés sur ce nouveau marché afin d'apporter chacun leur pierre à cet édifice en développant notamment des solutions « appliances ».

Dans ce contexte, les appliances représentent-elles la panacée en termes de puissance d'analyse, d'optimisation de traitement des requêtes et de réactivité ?
Sur le principe, celles-ci offrent aux utilisateurs la puissance nécessaire pour se concentrer sur l'analyse et l'exploitation des données temps réel sans être assujettis aux problématique de performance. Plus besoin donc de se focaliser sur la construction des composants de cette analyse ! Ainsi les appliances permettent de bénéficier de toutes les informations et non plus de se concentrer sur des extractions partielles et formatées dans lesquelles les utilisateurs sont nécessairement contraints.

Pourquoi les appliances et le Big Data sont-ils très souvent associés ?
Tout simplement parce que l'appliance permet d'adresser la problématique du Big Data et que les deux notions associées proposent une réponse aux préoccupations actuelles en termes de performance, d'exploitation et de continuité de service. La réduction des coûts annoncée par tous les éditeurs reste à démontrer. En effet, le marché du « Big Data » ne dispose pas à ce jour d'un recul suffisant pour évaluer et anticiper, réellement les impacts de ce type de projet au sein des entreprises. Les projets qui vont dans ce sens sont récents, et davantage vus comme des laboratoires sur la manière d'aborder la gestion, au sens large, du « Big Data ». L'évolution des infrastructures nécessaires au traitement du « Big Data » engendre un investissement financier important, alors que la « valeur » dégagée par le « Big Data » est encore floue sur plusieurs plans au premier desquels la data elle-même ! Avoir plus de données ne signifie pas avoir plus d'informations et encore moins plus d'informations à forte valeur ajoutée, capable d'influencer significativement le ROI ou le TCO de telles solutions. Le « Big Data » en tant que tel est déjà un phénomène du passé, aujourd'hui tout est « Big Data » à tort ou à raison mais cela devient la norme. Les chiffres avancés par certains sur les gains induits par le « Big Data » sont pour le moins étonnants et à coup sûr irréalistes ! Ce qui est certain en revanche c'est que la rupture induit par le « Big Data » va favoriser l'émergence de nouveaux métiers et de nouveaux usages dans le traitement de la donnée et la consommation de l'information ! Rendez-vous dans 5 ans à l'âge de la maturité pour savoir si les promesses d'aujourd'hui seront tenues demain ! Les axes de croissance recherchés aujourd'hui par les entreprises, sont-ils dans le « Big Data » ? Ou bien, le « Big Data » se limite-t-il uniquement à offrir de la puissance nécessaire pour mieux appréhender un volume de données qui ne fera que croître au fil des années et, dont les entreprises pourraient, ou pas, avoir besoin ?

Par contre, il est à noter dans cette évolution technologique majeure, un véritable enjeu et une proposition de valeur d'importance qui à notre sens vont vraiment faire la différence à très court terme : la Data Discovery. Cette nouvelle approche permet d'exploiter les différents gisements d'informations disponibles, à l'intérieur comme à l'extérieure de l'entreprise, afin d'en extraire des « pépites d'informations » et de les visualiser sous forme de graphiques ou tableaux interactifs. Ce nouveau type d'analyse permet bien évidemment à l'utilisateur de réagir plus rapidement et efficacement mais surtout de raisonner, non plus sur un périmètre restreint de données, mais sur la totalité des informations qui lui sont mises à disposition ! Il s'agit bien évidemment d'un avantage concurrentiel conséquent.

Quels sont les concepts techniques qui sous-tendent les appliances ?
Il s'agit avant tout d'un système homogène, totalement intégré, sécurisé, simple à installer (puisque la machine est pré-assemblée en usine et préconfigurée) et à déployer. Ce système peut-être auto-administrable et nécessite une faible maintenance ce qui réduit d'autant l'impact de maintenance et d'administration. Choisir une Appliance pour son entreprise c'est faire le choix d'une solution packagée performante et à forte valeur ajoutée pour son SI en offrant la puissance nécessaire aux utilisateurs pour affiner leurs analyses.

Les acteurs leaders de la BI l'ont bien compris et tous développent une offre Appliance : IBM Netezza, Microsoft (Fasttrack V3 et PDW2), Oracle (Exadata, Exalytics, et Exalogics) SAP (Sybase IQ & HANA) et les acteurs de niche tels que EMC Greenplum, Actian, Kognitio, Vertica se partagent le reste du marché.

Dans une Appliance, le stockage se fait en mode colonne (agrégation effectuée sur de nombreuses lignes, mise à jour massive et compression) ou en lignes essentiellement pour les transactions interactives et quand la taille des lignes est relativement faible.

Le mode en colonnes a gagné en popularité grâce à ses capacités de compression et les performances accrues sur les requêtes analytiques mais idéalement il faudrait choisir une solution proposant d'allier les deux modes de stockage, par exemple Teradata, Oracle ou Microsoft. Toutes les solutions offrent par ailleurs de très bons taux de compression, ce qui est un gage certain de l'efficience de l'Appliance mais également et surtout du SI.

Le paysage IT au sein des entreprises va encore évoluer et différentes Appliances cohabiteront pour différents usages : l'Appliance analytique faisant office de Data Warehouse, l'Appliance Big Data pour ses fonctions de Data Discovery et enfin l'Appliance Data pour l'Enterprise Integration Warehouse Data).

Hadoop est-il incontournable dans une approche Big Data ?
Si l'Appliance est souvent associée au Big Data, on entend souvent également l'association de Hadoop/MapReduce avec le Big Data, pourquoi ? Certains voient Hadoop/MapReduce comme le Data Warehouse de demain, en fait Hadoop/MapReduce se comporte comme une hydre à deux têtes ! D'un côté une capacité de traitement extrêmement performante due à une architecture en cluster de servers, de l'autre des données en entrée servie par un algorithme de distribution extrêmement performant. Hapdoop/MapReduce repose sur le système de fichier HDFS, sur lequel est calqué une interface de type base de données, HIVE, par exemple. La vraie question serait de se demander est-ce un système de calcul et de stockage à l'instar d'un SGDB, ou bien doit-il être abordé comme un ETL à haute performance ?

Big Data aujourd'hui, Big Data demain ?
Aujourd'hui Big Data surement, demain Data tout simplement ! Aujourd'hui tout le monde surfe sur cette notion qui finalement n'est rien d'autre qu'un concept. La volumétrie au sens large ne fait et ne fera que croître. Aujourd'hui le Big Data est la norme ! In-fine, le Big Data n'est pas une rupture en soit. Le Big Data ne signifie plus grand-chose en tant que tel, tant ce concept est utilisé à toutes les sauces ! Le Big Data aura permis du moins de sensibiliser les entreprises à la nouvelle dimension de la donnée au sein des entreprises en la replaçant au centre du processus décisionnel. En conclusion, La vraie rupture est représentée par l'évolution de l'infrastructure vers une solution Appliance et non pas vers le Big Data qui en tant que tel qui ne représente rien.



Dans la même rubrique :