Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Infrastructure Big Data : répondre à des exigences en matière de Volume, de Variété et de Vitesse


Rédigé par le 7 Février 2012

Un système décisionnel Big Data est reconnu comme tel, s’il présente des capacités particulières en matière de volume, de variété de données et de vitesse de traitement.



Michel Bruley, Directeur Marketing Teradata Aster Europe de l’Ouest
Michel Bruley, Directeur Marketing Teradata Aster Europe de l’Ouest
Aujourd’hui les entreprises pour améliorer leurs modèles de connaissances et de prévisions, n’hésitent pas prendre en compte plusieurs centaines de facteurs, et pour cela mettent en place de nouveaux moyens d’analyse qui permettent de traiter de grands volumes de données. Or le traitement de grands volumes de données est un défi pour les infrastructures décisionnelles habituelles. Stocker de grands volumes n’est pas un problème, mais les exploiter nécessite des architectures massivement parallèles, des entrepôts de données tels que ceux proposés par Teradata par exemple, ou des « solutions MapReduce » telles que celles d’Hadoop ou d’Aster Data. Ici le choix de la solution dépend de la variété des types de données à traiter et de la vélocité attendue. En effet MapReduce est meilleur qu’une base de données relationnelle pour traiter des données non structurées, et Hadoop est batch alors qu’Aster Data est temps réel. Comme il n’y a pas de solution miracle, les grandes entreprises se dotent d’un mix de moyens leur permettant de bénéficier des avantages des différents types de solutions.

A partir du moment où l’on veut prendre en compte toutes sortes de données, des textes, des données issues de capteurs divers, des données de géolocalisation, des données de réseaux sociaux, des images, etc..., ces données ne se présentent pas sous une forme parfaitement ordonnée et ne sont pas d’emblée prêtes pour une exploitation analytique. Même les données issues du web ne se sont pas dès le départ parfaites. Une tâche courante des systèmes Big Data est de prendre en charge des données non ou multi-structurées et de les traiter pour les rendre consommables par des humains ou des applications analytiques. Un exemple classique en matière de traitement de textes est de déterminer à quoi réfère un mot : Paris est-ce la capitale de la France ? La ville Paris dans l’Illinois ? Paris la célèbre people ? Etc. Il s’agit aussi de stocker de la façon la plus performante possible des données, et les bases de données relationnelles ne sont pas toujours la meilleure solution, par exemple pour les données XML ou pour les réseaux de relations qui sont des graphiques. Même là où il n'y a pas une incompatibilité de type de données, un inconvénient de la base de données relationnelle est le caractère statique de ses schémas. Les bases de données semi-structurées NoSQL fournissent assez de structure pour organiser les données, mais ne nécessitent pas un schéma exact des données avant de les ranger.

Les exigences de vitesse de traitement des données ont ces dernières années augmentées de façon analogue à celles des volumes. Cela ne concerne plus seulement quelques sociétés spécialisées comme les opérateurs financiers (les traders), mais touche la plupart des secteurs économiques. A l’ère d'internet et des mobiles le rythme des affaires s’est accéléré, nous ne consommons plus de la même façon, les formes de concurrence ont évoluées et les flux d’information aussi. Par exemple les détaillants en ligne sont en mesure de suivre les clics de chaque client, de leur première interaction à la vente finale. Ceux qui sont capables de rapidement utiliser cette information, en recommandant des achats supplémentaires par exemple, acquiert un avantage concurrentiel notable.

Le défi ne tient pas uniquement dans le fait de devoir assumer le volume ou la vitesse des données entrantes, mais surtout dans la vitesse des analyses et du déclenchement des actions pertinentes. La fraîcheur des informations délivrées est primordiale. Par exemple : Traverseriez-vous une rue sans regarder, en vous fiant à une vue de la circulation prise cinq minutes avant ? La vitesse de rétroaction est une source d’avantages concurrentiels, en particulier pour toutes les activités web. Face à de tels besoins les technologies habituelles du monde du décisionnel sont dépassées par le rythme, et seul un mix de solutions permet de répondre aux attentes métiers. C’est ainsi que des clients Teradata comme eBay ou LinkedIn par exemple, utilisent à la fois des systèmes Teradata (Active Entreprise Data Warehouse, Extreme Data appliance, Extreme Performance Appliance) et des systèmes Hadoop ou Teradata Aster.

Pour aller plus loin sur la vision de Teradata des infrastructures Big Data, vous pouvez venir nous écouter lors du Congrès Big Data Paris 20 & 21 Mars 2012 : http://www.bigdataparis.com/fr-index.php




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store