Infrastructure Big Data : répondre à des exigences en matière de Volume, de Variété et de Vitesse

Michel Bruley, Directeur Marketing Teradata Aster Europe de l’Ouest

Aujourd’hui les entreprises pour améliorer leurs modèles de connaissances et de prévisions, n’hésitent pas prendre en compte plusieurs centaines de facteurs, et pour cela mettent en place de nouveaux moyens d’analyse qui permettent de traiter de grands volumes de données. Or le traitement de grands volumes de données est un défi pour les infrastructures décisionnelles habituelles. Stocker de grands volumes n’est pas un problème, mais les exploiter nécessite des architectures massivement parallèles, des entrepôts de données tels que ceux proposés par Teradata par exemple, ou des « solutions MapReduce » telles que celles d’Hadoop ou d’Aster Data. Ici le choix de la solution dépend de la variété des types de données à traiter et de la vélocité attendue. En effet MapReduce est meilleur qu’une base de données relationnelle pour traiter des données non structurées, et Hadoop est batch alors qu’Aster Data est temps réel. Comme il n’y a pas de solution miracle, les grandes entreprises se dotent d’un mix de moyens leur permettant de bénéficier des avantages des différents types de solutions.

A partir du moment où l’on veut prendre en compte toutes sortes de données, des textes, des données issues de capteurs divers, des données de géolocalisation, des données de réseaux sociaux, des images, etc..., ces données ne se présentent pas sous une forme parfaitement ordonnée et ne sont pas d’emblée prêtes pour une exploitation analytique. Même les données issues du web ne se sont pas dès le départ parfaites. Une tâche courante des systèmes Big Data est de prendre en charge des données non ou multi-structurées et de les traiter pour les rendre consommables par des humains ou des applications analytiques. Un exemple classique en matière de traitement de textes est de déterminer à quoi réfère un mot : Paris est-ce la capitale de la France ? La ville Paris dans l’Illinois ? Paris la célèbre people ? Etc. Il s’agit aussi de stocker de la façon la plus performante possible des données, et les bases de données relationnelles ne sont pas toujours la meilleure solution, par exemple pour les données XML ou pour les réseaux de relations qui sont des graphiques. Même là où il n'y a pas une incompatibilité de type de données, un inconvénient de la base de données relationnelle est le caractère statique de ses schémas. Les bases de données semi-structurées NoSQL fournissent assez de structure pour organiser les données, mais ne nécessitent pas un schéma exact des données avant de les ranger.

Les exigences de vitesse de traitement des données ont ces dernières années augmentées de façon analogue à celles des volumes. Cela ne concerne plus seulement quelques sociétés spécialisées comme les opérateurs financiers (les traders), mais touche la plupart des secteurs économiques. A l’ère d'internet et des mobiles le rythme des affaires s’est accéléré, nous ne consommons plus de la même façon, les formes de concurrence ont évoluées et les flux d’information aussi. Par exemple les détaillants en ligne sont en mesure de suivre les clics de chaque client, de leur première interaction à la vente finale. Ceux qui sont capables de rapidement utiliser cette information, en recommandant des achats supplémentaires par exemple, acquiert un avantage concurrentiel notable.

Le défi ne tient pas uniquement dans le fait de devoir assumer le volume ou la vitesse des données entrantes, mais surtout dans la vitesse des analyses et du déclenchement des actions pertinentes. La fraîcheur des informations délivrées est primordiale. Par exemple : Traverseriez-vous une rue sans regarder, en vous fiant à une vue de la circulation prise cinq minutes avant ? La vitesse de rétroaction est une source d’avantages concurrentiels, en particulier pour toutes les activités web. Face à de tels besoins les technologies habituelles du monde du décisionnel sont dépassées par le rythme, et seul un mix de solutions permet de répondre aux attentes métiers. C’est ainsi que des clients Teradata comme eBay ou LinkedIn par exemple, utilisent à la fois des systèmes Teradata (Active Entreprise Data Warehouse, Extreme Data appliance, Extreme Performance Appliance) et des systèmes Hadoop ou Teradata Aster.

Pour aller plus loin sur la vision de Teradata des infrastructures Big Data, vous pouvez venir nous écouter lors du Congrès Big Data Paris 20 & 21 Mars 2012 : http://www.bigdataparis.com/fr-index.php

Autres articles

Infrastructure Big Data : répondre à des exigences en matière de Volume, de Variété et de Vitesse

Un système décisionnel Big Data est reconnu comme tel, s’il présente des capacités particulières en matière de volume, de variété de données et de vitesse de traitement.

Teradata lance des cas d’usage d’IA générative à démarrage rapide grâce à l’intégration d’Amazon Bedrock

Teradata nomme Louis Landry au poste de Chief Technology Officer

Teradata AI Unlimited pour Microsoft Fabric est désormais disponible en avant-première via Microsoft Fabric Workload Hub

Teradata facilite l’application concrète de l’IA générative et accélère la création de valeur pour les entreprises

Teradata propose des capacités d’IA exceptionnelles pour les grandes entreprises et les environnements hybrides en collaboration avec NVIDIA

Starburst optimise sa plateforme pour accélérer la gestion des flux IA - 27/02/2025

BNP Paribas signe un partenariat avec Oracle pour renforcer sa stratégie cloud - 09/01/2025

Snowflake renforce la collaboration cross-cloud pour les données d'entreprise et l'intelligence artificielle - 21/11/2024

Snowflake unifie les données transactionnelles et analytiques avec la disponibilité générale des Hybrid Tables - 21/11/2024

Neo4j dépasse les 200 millions de dollars de chiffre d’affaires et accélère son leadership dans le domaine de la GenAI grâce à sa technologie de graphes - 20/11/2024