Bithika Khargharia, Senior Engineer, Vertical Solutions and Architecture chez Extreme Networks
La majorité des données constitutives du Big Data sont en réalité des données non structurées qui, contrairement aux données structurées qui sont parfaitement adaptées aux schémas de base de données classiques, sont beaucoup plus difficiles à gérer. Prenons l'exemple du stockage vidéo. Le type de fichier vidéo, la taille de fichier et l'adresse IP source sont tous des données structurées, alors que le contenu vidéo proprement dit, qui ne tient pas dans des champs de longueur fixe, est entièrement constitué de données non structurées. Aujourd'hui, une grande partie de la valeur produite par l'analyse du Big Data vient de la capacité à rechercher et demander des données non structurées - par exemple, la capacité à identifier un individu dans un clip vidéo parmi des milliers de visages grâce à des algorithmes de reconnaissance faciale.
Les technologies traitant de cette question atteignent la rapidité et l'efficacité requises en appliquant les calculs analytiques effectués sur le Big Data en parallèle sur des clusters de plusieurs centaines de milliers de serveurs connectés via des réseaux Ethernet haut débit. Ainsi, le processus d'exploration de l'information issue du Big Data comporte essentiellement trois étapes : 1) Fractionnement des données en plusieurs nœuds de serveur ; 2) Analyse de chaque bloc de données en parallèle ; 3) Fusion des résultats.
Ces opérations sont répétées au cours de plusieurs phases successives jusqu'à ce que le jeu de données ait été entièrement analysé.
Compte tenu des opérations de fractionnement-fusion liées à ces calculs parallèles, l'analyse du Big Data peut peser lourd sur le réseau sous-jacent. Même avec les serveurs les plus rapides du monde, les vitesses de traitement de l'information – principal point bloquant pour le Big Data – ne peuvent pas dépasser la capacité du réseau à transférer les données d'un serveur à l'autre lors des phases de fractionnement et de fusion. Ainsi, une étude sur les traces Facebook a montré que ce transfert de données entre plusieurs phases successives représentait 33 % du temps d'exécution total et que pour de nombreuses tâches, la phase de communication monopolisait plus de 50 % du temps d'exécution.
En s'attaquant à ce point bloquant pour le réseau, nous pouvons accélérer l'analyse du Big Data de manière considérable, ce qui peut avoir deux effets : 1) optimiser l'utilisation des clusters et ainsi réduire le coût total de possession pour le fournisseur de solutions cloud en charge de la gestion de l'infrastructure, et 2) exécuter les tâches plus rapidement et permettre ainsi au client locataire de l'infrastructure d'obtenir des analyses en temps réel.
Ce dont nous avons besoin, c'est d'un réseau intelligent qui évolue de manière adéquate à chaque phase du calcul pour répondre aux exigences de bande passante du transfert de données lors des phases de fractionnement et de fusion, et améliore ainsi non seulement la vitesse de traitement, mais aussi l'utilisation.
Le rôle du SDN
Le SDN offre d'énormes possibilités pour construire le réseau adaptatif intelligent requis pour l'analyse du Big Data. En raison du découplage du plan de contrôle et du plan de données, le SDN propose une interface programmatique bien définie qui permet à l'intelligence logicielle de programmer des réseaux hautement personnalisables, extensibles et agiles, afin de répondre aux exigences du Big Data à la demande.
Le SDN permet de dimensionner le réseau à la demande de manière à ce que les machines virtuelles de calcul communiquent entre elles de façon optimale. Le principal obstacle auquel se heurte le Big Data, application massivement parallèle - à savoir des temps de traitement trop longs - est ainsi directement pris en compte. Les vitesses de traitement sont lentes parce que la plupart des machines virtuelles de calcul dans une application Big Data passent énormément de temps à attendre l'arrivée de volumes massifs de données lors des opérations de fragmentation-regroupement avant de pouvoir commencer le traitement. Grâce au SDN, le réseau peut créer des voies de communication sécurisées à la demande et réaliser une extension de capacité lors des opérations de fragmentation-regroupement, réduisant ainsi de façon significative le temps d'attente et par conséquent le temps de traitement.
Cette intelligence logicielle, qui consiste ni plus ni moins en la compréhension de ce que le réseau peut apporter à l'application, peut être mise à profit de manière très précise et efficace pour les applications de Big Data. Cela s'explique de deux façons : 1) l'existence de modèles de calcul et de communication bien définis, tels que le modèle SplitMerge ou MapReduce de Hadoop ; et 2) l'existence d'une structure de gestion centralisée qui permet d'exploiter l'information au niveau application, comme Hadoop Scheduler ou HBase Master.
Avec l'aide du contrôleur SDN, qui a une vue globale du réseau sous-jacent (état, utilisation, etc.), l'intelligence logicielle peut traduire les besoins de l'application de façon précise en programmant le réseau à la demande.
Le SDN propose également d'autres fonctions qui facilitent la gestion, l'intégration et l'analyse du Big Data. Les nouveaux protocoles réseau orientés SDN, dont OpenFlow et OpenStack, promettent de simplifier la gestion du réseau et de la rendre plus intelligente et largement automatisée. OpenStack permet d'effectuer le paramétrage et la configuration des éléments du réseau en mobilisant nettement moins de ressources, tandis qu'OpenFlow contribue à l'automatisation du réseau et aide à faire face aux nouvelles pressions - automatisation du data center, BYOD, sécurité et accélération des applications - avec plus de souplesse.
Du point de vue de la taille, le SDN joue aussi un rôle primordial dans le développement de l'infrastructure réseau pour le Big Data. En effet, il facilite la gestion rationalisée de milliers de commutateurs ainsi que l'interopérabilité entre les éditeurs, qui jette les bases de la construction accélérée du réseau et du développement des applications. OpenFlow, un protocole qui fonctionne avec tous les périphériques compatibles, quel que soit le fournisseur, permet cette interopérabilité, et libère les entreprises des solutions propriétaires qui pouvaient être contraignantes dans le cadre de leur démarche de transformation du Big Data en capital informationnel.
Les implications et le potentiel considérables du Big Data étant de plus en plus visibles, il sera crucial de veiller à ce que le réseau soit prêt à s'adapter à ces nouvelles exigences si l'on veut en garantir le succès à long terme. Il est clair qu'une solution efficace tirera profit de deux aspects essentiels : l'existence de modèles dans les applications de Big Data et la programmabilité du réseau garantie par le SDN. De ce point de vue, le SDN est d'ailleurs sur le point de jouer un rôle majeur dans l'adaptation continue et accélérée du réseau, et devrait contribuer à ouvrir la voie du savoir et de l'innovation.
A propos de l'auteur : Bithika Khargharia est ingénieur senior, spécialiste des solutions et de l'architecture verticales chez Extreme Networks. Après plus de dix ans d'expérience dans la recherche et le développement technologiques au sein de grandes entreprises comme Cisco, Bithika a acquis une expertise de l'ingénierie systèmes dans différents domaines, dont la technologie, la gérabilité et la performance écologiques ; les architectures serveur, réseau et data center à grande échelle ; l'informatique distribuée (grid computing) ; l'informatique autonome et le SDN (Software Defined Networking).
Les technologies traitant de cette question atteignent la rapidité et l'efficacité requises en appliquant les calculs analytiques effectués sur le Big Data en parallèle sur des clusters de plusieurs centaines de milliers de serveurs connectés via des réseaux Ethernet haut débit. Ainsi, le processus d'exploration de l'information issue du Big Data comporte essentiellement trois étapes : 1) Fractionnement des données en plusieurs nœuds de serveur ; 2) Analyse de chaque bloc de données en parallèle ; 3) Fusion des résultats.
Ces opérations sont répétées au cours de plusieurs phases successives jusqu'à ce que le jeu de données ait été entièrement analysé.
Compte tenu des opérations de fractionnement-fusion liées à ces calculs parallèles, l'analyse du Big Data peut peser lourd sur le réseau sous-jacent. Même avec les serveurs les plus rapides du monde, les vitesses de traitement de l'information – principal point bloquant pour le Big Data – ne peuvent pas dépasser la capacité du réseau à transférer les données d'un serveur à l'autre lors des phases de fractionnement et de fusion. Ainsi, une étude sur les traces Facebook a montré que ce transfert de données entre plusieurs phases successives représentait 33 % du temps d'exécution total et que pour de nombreuses tâches, la phase de communication monopolisait plus de 50 % du temps d'exécution.
En s'attaquant à ce point bloquant pour le réseau, nous pouvons accélérer l'analyse du Big Data de manière considérable, ce qui peut avoir deux effets : 1) optimiser l'utilisation des clusters et ainsi réduire le coût total de possession pour le fournisseur de solutions cloud en charge de la gestion de l'infrastructure, et 2) exécuter les tâches plus rapidement et permettre ainsi au client locataire de l'infrastructure d'obtenir des analyses en temps réel.
Ce dont nous avons besoin, c'est d'un réseau intelligent qui évolue de manière adéquate à chaque phase du calcul pour répondre aux exigences de bande passante du transfert de données lors des phases de fractionnement et de fusion, et améliore ainsi non seulement la vitesse de traitement, mais aussi l'utilisation.
Le rôle du SDN
Le SDN offre d'énormes possibilités pour construire le réseau adaptatif intelligent requis pour l'analyse du Big Data. En raison du découplage du plan de contrôle et du plan de données, le SDN propose une interface programmatique bien définie qui permet à l'intelligence logicielle de programmer des réseaux hautement personnalisables, extensibles et agiles, afin de répondre aux exigences du Big Data à la demande.
Le SDN permet de dimensionner le réseau à la demande de manière à ce que les machines virtuelles de calcul communiquent entre elles de façon optimale. Le principal obstacle auquel se heurte le Big Data, application massivement parallèle - à savoir des temps de traitement trop longs - est ainsi directement pris en compte. Les vitesses de traitement sont lentes parce que la plupart des machines virtuelles de calcul dans une application Big Data passent énormément de temps à attendre l'arrivée de volumes massifs de données lors des opérations de fragmentation-regroupement avant de pouvoir commencer le traitement. Grâce au SDN, le réseau peut créer des voies de communication sécurisées à la demande et réaliser une extension de capacité lors des opérations de fragmentation-regroupement, réduisant ainsi de façon significative le temps d'attente et par conséquent le temps de traitement.
Cette intelligence logicielle, qui consiste ni plus ni moins en la compréhension de ce que le réseau peut apporter à l'application, peut être mise à profit de manière très précise et efficace pour les applications de Big Data. Cela s'explique de deux façons : 1) l'existence de modèles de calcul et de communication bien définis, tels que le modèle SplitMerge ou MapReduce de Hadoop ; et 2) l'existence d'une structure de gestion centralisée qui permet d'exploiter l'information au niveau application, comme Hadoop Scheduler ou HBase Master.
Avec l'aide du contrôleur SDN, qui a une vue globale du réseau sous-jacent (état, utilisation, etc.), l'intelligence logicielle peut traduire les besoins de l'application de façon précise en programmant le réseau à la demande.
Le SDN propose également d'autres fonctions qui facilitent la gestion, l'intégration et l'analyse du Big Data. Les nouveaux protocoles réseau orientés SDN, dont OpenFlow et OpenStack, promettent de simplifier la gestion du réseau et de la rendre plus intelligente et largement automatisée. OpenStack permet d'effectuer le paramétrage et la configuration des éléments du réseau en mobilisant nettement moins de ressources, tandis qu'OpenFlow contribue à l'automatisation du réseau et aide à faire face aux nouvelles pressions - automatisation du data center, BYOD, sécurité et accélération des applications - avec plus de souplesse.
Du point de vue de la taille, le SDN joue aussi un rôle primordial dans le développement de l'infrastructure réseau pour le Big Data. En effet, il facilite la gestion rationalisée de milliers de commutateurs ainsi que l'interopérabilité entre les éditeurs, qui jette les bases de la construction accélérée du réseau et du développement des applications. OpenFlow, un protocole qui fonctionne avec tous les périphériques compatibles, quel que soit le fournisseur, permet cette interopérabilité, et libère les entreprises des solutions propriétaires qui pouvaient être contraignantes dans le cadre de leur démarche de transformation du Big Data en capital informationnel.
Les implications et le potentiel considérables du Big Data étant de plus en plus visibles, il sera crucial de veiller à ce que le réseau soit prêt à s'adapter à ces nouvelles exigences si l'on veut en garantir le succès à long terme. Il est clair qu'une solution efficace tirera profit de deux aspects essentiels : l'existence de modèles dans les applications de Big Data et la programmabilité du réseau garantie par le SDN. De ce point de vue, le SDN est d'ailleurs sur le point de jouer un rôle majeur dans l'adaptation continue et accélérée du réseau, et devrait contribuer à ouvrir la voie du savoir et de l'innovation.
A propos de l'auteur : Bithika Khargharia est ingénieur senior, spécialiste des solutions et de l'architecture verticales chez Extreme Networks. Après plus de dix ans d'expérience dans la recherche et le développement technologiques au sein de grandes entreprises comme Cisco, Bithika a acquis une expertise de l'ingénierie systèmes dans différents domaines, dont la technologie, la gérabilité et la performance écologiques ; les architectures serveur, réseau et data center à grande échelle ; l'informatique distribuée (grid computing) ; l'informatique autonome et le SDN (Software Defined Networking).