Il est souvent envisagé de recourir à des solutions cloud pour l’analyse big data ; or le facteur temps est décisif pour l’efficacité de ces analyses. Généralement, les données doivent être traitées dans un laps de temps très court, voire en temps réel, pour que l’entreprise dispose des bonnes informations et puisse décider en temps utile. L’analyse big data requiert également de puissants algorithmes afin de rendre très rapidement compréhensibles toutes ces données et de les exploiter de manière efficace dans un environnement qui évolue sans cesse. La puissance de calcul et la rapidité d’analyse sont donc essentielles : c’est là que le big data rencontre le supercalcul ou calcul haute performance (HPC). Les spécialistes parlent alors de « high performance data analytics » (HPDA) ou de convergence du big data et du HPC.
Les solutions cloud présentent pour leur part de gros inconvénients pour l’analyse big data : leur latence est trop longue et les données doivent d’abord être déplacées dans le cloud, ce qui monopolise des ressources et n’est d’ailleurs pas recommandé pour la sécurité des données critiques des entreprises.
Les solutions cloud présentent pour leur part de gros inconvénients pour l’analyse big data : leur latence est trop longue et les données doivent d’abord être déplacées dans le cloud, ce qui monopolise des ressources et n’est d’ailleurs pas recommandé pour la sécurité des données critiques des entreprises.
Convergence du big data et du HPC : une idée très concrète
Dominik Ulmer, VP Business Operations EMEA chez Cray
Les notions de cohérence et de convergence ne sont en aucun cas des mots vides de sens ici. Nombre d’experts du secteur industriel, par exemple, suivent très attentivement le rapprochement du big data et du HPC car il pourrait avoir des effets positifs sur la conception, le développement et la gestion du cycle de vie des produits. La popularité du calcul haute performance basé sur les données est également portée par la demande de capacité de calcul toujours plus grande, par exemple pour réaliser des simulations de charge, et par l’augmentation du volume des données concernant les produits. Les données recueillies lors de tests physiques, sur les sites de production et à partir des retours des clients offrent par ailleurs la possibilité d’améliorer la qualité des produits. Dans l’industrie automobile par exemple, les simulations (simulations d’impact, analyses structurelles, tests électromagnétiques, etc.) sont indissociables du processus de conception des produits, car elles permettent de développer des véhicules à la fois sûrs et compétitifs.
Les termes « convergence » et « cohérence » ont aussi leur place dans la National Strategic Computing Initiative lancée récemment aux États-Unis, dans le Human Brain Project britannique ou encore dans les contributions des grands acteurs économiques et universitaires au domaine du calcul haute performance. Le big data change la manière dont sont utilisés les superordinateurs, qui à leur tour influencent les méthodes de traitement des énormes volumes de données. Qu’il s’agisse de l’analyse de matchs de foot, de la modélisation climatique et météorologique à l’aide de capteurs IoT ou de l’analyse thématique détaillée de données provenant des réseaux sociaux, l’analyse big data et le supercalcul sont étroitement liés.
Les termes « convergence » et « cohérence » ont aussi leur place dans la National Strategic Computing Initiative lancée récemment aux États-Unis, dans le Human Brain Project britannique ou encore dans les contributions des grands acteurs économiques et universitaires au domaine du calcul haute performance. Le big data change la manière dont sont utilisés les superordinateurs, qui à leur tour influencent les méthodes de traitement des énormes volumes de données. Qu’il s’agisse de l’analyse de matchs de foot, de la modélisation climatique et météorologique à l’aide de capteurs IoT ou de l’analyse thématique détaillée de données provenant des réseaux sociaux, l’analyse big data et le supercalcul sont étroitement liés.
Résoudre les problématiques du big data en alliant le HPC et les standards d’entreprise open source
Le volume des données n’est pas la seule difficulté posée par le big data. Leur diversité et la complexité des analyses représentent également des problématiques majeures pour les entreprises alors qu’elles sont confrontées à l’expansion effrénée des clusters, à la multiplication des nouvelles applications et à la pression croissante des décideurs qui veulent toujours plus vite la bonne information. À cela vient s’ajouter le fait que l’univers du big data connaît lui aussi des évolutions technologiques. Spark, Hadoop et les bases de données orientées graphes sont des solutions omniprésentes aujourd’hui dans de nombreux secteurs et les approches innovantes comme le « deep learning » gagnent aussi constamment du terrain.
De nouvelles solutions flexibles d’analyse big data sont nécessaires pour résoudre ces problèmes de fond et aider les professionnels de l’informatique et les chercheurs à relever les défis majeurs du big data, le tout dans un contexte de croissance constante du volume et de la complexité des données et de multiplication des domaines d’application. La solution pour obtenir ce niveau de flexibilité est d’associer un superordinateur, qui permet de disposer d’une vitesse de calcul, d’une capacité de montée en charge et d’un débit de données très importants, à des équipements informatiques standard et à un environnement logiciel open source (OpenStack pour la gestion de données et Apache Mesos pour la configuration dynamique). Confort d’utilisation et flexibilité sont ainsi assurés. Contrairement au « Shadow IT » (informatique de l’ombre), dont on parle beaucoup, qui implique la mise en place de différentes architectures de clusters selon les charges de travail, avec à la clé des problèmes d’intégration des applications, le modèle proposé ci-dessus repose sur l’utilisation de standards informatiques ouverts et homogènes. Il permet l’exécution simultanée de plusieurs analyses, aussi complexes soient-elles, que ce soit avec Hadoop, Apache Spark ou une base de données orientée graphes, sur une même plate-forme et facilite l’intégration de nouveaux outils d’analyse.
La combinaison des technologies HPC et de logiciels d’entreprise open source fournit aux utilisateurs un outil performant pour obtenir très rapidement une vue d’ensemble à partir d’énormes volumes de données non structurées.
De nouvelles solutions flexibles d’analyse big data sont nécessaires pour résoudre ces problèmes de fond et aider les professionnels de l’informatique et les chercheurs à relever les défis majeurs du big data, le tout dans un contexte de croissance constante du volume et de la complexité des données et de multiplication des domaines d’application. La solution pour obtenir ce niveau de flexibilité est d’associer un superordinateur, qui permet de disposer d’une vitesse de calcul, d’une capacité de montée en charge et d’un débit de données très importants, à des équipements informatiques standard et à un environnement logiciel open source (OpenStack pour la gestion de données et Apache Mesos pour la configuration dynamique). Confort d’utilisation et flexibilité sont ainsi assurés. Contrairement au « Shadow IT » (informatique de l’ombre), dont on parle beaucoup, qui implique la mise en place de différentes architectures de clusters selon les charges de travail, avec à la clé des problèmes d’intégration des applications, le modèle proposé ci-dessus repose sur l’utilisation de standards informatiques ouverts et homogènes. Il permet l’exécution simultanée de plusieurs analyses, aussi complexes soient-elles, que ce soit avec Hadoop, Apache Spark ou une base de données orientée graphes, sur une même plate-forme et facilite l’intégration de nouveaux outils d’analyse.
La combinaison des technologies HPC et de logiciels d’entreprise open source fournit aux utilisateurs un outil performant pour obtenir très rapidement une vue d’ensemble à partir d’énormes volumes de données non structurées.
Des composants HPC pour l’analyse big data
L’élément clé de cette combinaison est la puce de connexion Aries (« Aries Interconnect »), déjà installée avec succès dans des superordinateurs. Ce réseau interne à haut débit est un système de connexion distribué qui offre des temps de réponse très rapides et une large bande passante et est optimisé pour des débits de communication élevés. Les charges de travail dépendantes du réseau comme celles produites par Spark s’exécutent ainsi beaucoup plus vite. Les paquets de données peuvent être traités à la volée et il est possible de réaliser des analyses rapides en mémoire vive. La puce de connexion Aries remplace les réseaux Éthernet ou les nœuds InfiniBand, si bien qu’il n’est pas nécessaire de bâtir une structure réseau entre différents nœuds, ce qui permet de gagner du temps, de mobiliser moins de ressources et de faire des économies.
Exemples d’application dans des domaines scientifiques
Un exemple de projet qui tire largement parti de la convergence du HPC et du big data est le Human Brain Project (HBP) du centre de supercalcul de Jülich, activement soutenu par l’Union européenne. Il s’agit d’une initiative s’étalant sur 10 ans dont l’objectif est de rassembler l’ensemble des connaissances actuelles sur le cerveau humain et de les approfondir à l’aide de modélisations et de simulations informatiques. Un des éléments clés du projet est le développement de solutions de stockage pour les énormes volumes de données produits au cours de simulations du cerveau humain. Les autres défis à relever incluent la gestion du projet et du workflow ainsi que la préparation de simulations interactives. Les données et simulations produites dans le cadre du HBP permettront à long terme d’élaborer de nouveaux outils afin de mieux comprendre le cerveau et ses mécanismes de base et d’appliquer ces connaissances à la médecine et à l’informatique du futur.
Aux États-Unis, l’Argonne Leadership Computing Facility travaille lui aussi avec des applications centrées sur les données dans des domaines comme les sciences de la vie, la science des matériaux et l’apprentissage automatique. Cet institut est dédié à la recherche et à l’optimisation de différentes méthodes de calcul, qui constituent la base de l’acquisition de connaissances fondées sur des données dans toutes les disciplines scientifiques. Dans le cadre du programme ALCF Data Science 2016, les participants devraient bénéficier de ressources informatiques de pointe pour le « parsing » et l’analyse d’immenses ensembles de données.
Un autre exemple de l’utilisation combinée du HPC et du big data est l’analyse des données relatives au génome humain et son séquençage dans le cadre de la recherche sur le cancer. Dans ce domaine aussi, il est essentiel d’obtenir très vite des résultats. Le Broad Institute du MIT à Harvard, organisme de recherche à but non lucratif spécialisé dans l’étude et le traitement des maladies, a établi de nouveaux records. Il a réussi à obtenir les résultats de recalibrage des scores de qualité à partir de son pipeline Apache Spark Genome Analysis Toolkit (GATK4) en neuf minutes au lieu de quarante auparavant, et ce à l’aide d’une solution conjuguant analyse big data et HPC.
Aux États-Unis, l’Argonne Leadership Computing Facility travaille lui aussi avec des applications centrées sur les données dans des domaines comme les sciences de la vie, la science des matériaux et l’apprentissage automatique. Cet institut est dédié à la recherche et à l’optimisation de différentes méthodes de calcul, qui constituent la base de l’acquisition de connaissances fondées sur des données dans toutes les disciplines scientifiques. Dans le cadre du programme ALCF Data Science 2016, les participants devraient bénéficier de ressources informatiques de pointe pour le « parsing » et l’analyse d’immenses ensembles de données.
Un autre exemple de l’utilisation combinée du HPC et du big data est l’analyse des données relatives au génome humain et son séquençage dans le cadre de la recherche sur le cancer. Dans ce domaine aussi, il est essentiel d’obtenir très vite des résultats. Le Broad Institute du MIT à Harvard, organisme de recherche à but non lucratif spécialisé dans l’étude et le traitement des maladies, a établi de nouveaux records. Il a réussi à obtenir les résultats de recalibrage des scores de qualité à partir de son pipeline Apache Spark Genome Analysis Toolkit (GATK4) en neuf minutes au lieu de quarante auparavant, et ce à l’aide d’une solution conjuguant analyse big data et HPC.
HPC : la réponse aux questions jusqu’ici non résolues
Afin de pouvoir exploiter pleinement le potentiel du big data tout en limitant les risques, il est essentiel de développer de nouvelles approches pour pouvoir collecter, analyser et stocker rapidement de gros volumes de données. La solution consiste à combiner HPC et analyse big data sur une même plate-forme.
Dans les secteurs comme la pharmacie, la logistique, l’énergie, la finance et l’industrie où les connaissances issues du calcul haute performance sont déjà appliquées à l’analyse de données, les entreprises parviennent à repousser toujours plus loin les limites de la recherche et du développement. Elles sont ainsi en mesure de résoudre des questions restées jusqu’ici sans réponse.
Dans les secteurs comme la pharmacie, la logistique, l’énergie, la finance et l’industrie où les connaissances issues du calcul haute performance sont déjà appliquées à l’analyse de données, les entreprises parviennent à repousser toujours plus loin les limites de la recherche et du développement. Elles sont ainsi en mesure de résoudre des questions restées jusqu’ici sans réponse.