Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Stocker la masse de données à l’ère de l’IA


Rédigé par Rainer W. Kaese, Toshiba Electronics Europe GmbH le 28 Janvier 2025

L’IA repose sur des données – une quantité de données gigantesque qui doit être collectée de manière fiable et mise à disposition pour la formation et les analyses. D’un point de vue économique, cela n’est possible qu’avec des disques durs, qui répondent souvent mieux qu’on ne le pense aux exigences de haute performance de l’IA.



Rainer W. Kaese, Senior Manager, HDD Business Development at Toshiba Electronics Europe (Source: Toshiba Electronics Europe)
Rainer W. Kaese, Senior Manager, HDD Business Development at Toshiba Electronics Europe (Source: Toshiba Electronics Europe)
L’intelligence artificielle (IA) transforme actuellement de nombreux secteurs. Elle permet d’automatiser les processus et de prendre de meilleures décisions, mais ne peut y parvenir que si elle dispose de suffisamment de données. Plus les volumes de données sont importants, meilleurs sont les modèles d’IA capables d’apprendre, de reconnaître des modèles et de détecter des anomalies. C’est pourquoi les entreprises accumulent de plus en plus de données, désireuses d’obtenir de précieuses informations dans des domaines totalement nouveaux en accédant à des sources supplémentaires.

Mais comment gérer cet important flux de données en croissance rapide ? Cela nécessite des architectures de stockage offrant des centaines de téraoctets, voire plusieurs pétaoctets d'espace de stockage selon les entreprises. Ce stockage peut être facilement étendu selon les besoins. Après tout, les données ne doivent pas tomber dans le vide à un moment donné, de sorte qu'elles soient perdues lors de la formation de modèles ou d'analyses d'IA.

Les disques durs sont le support de stockage de choix dans ces architectures évolutives, car ils constituent le seul moyen de fournir les capacités requises de manière économique. La mémoire Flash coûte encore environ cinq à huit fois plus cher par unité de capacité et n'est donc utilisée que dans des domaines sélectionnés. Par exemple comme cache ou dans des systèmes hautes performances. Toutefois, dans la plupart des cas et pour la majorité des données d’IA, les disques durs suffisent. En effet, ils offrent des performances bien meilleures que ce que les entreprises supposent souvent, surtout lorsqu’elles sont combinées.

Plus rapide que prévu

Lors du stockage de grandes quantités de données, l’écriture séquentielle est particulièrement importante. Il s'agit d'une discipline clé des disques durs, et dans laquelle ils se sont améliorés ces dernières années grâce aux optimisations du firmware telles que la planification plus intelligente des routines de test. Les modèles actuels atteignent environ 300 Mo/s, contre moins de 200 Mo/s il y a dix ans. Les performances des accès en lecture aléatoire, qui sont importants pour récupérer et fournir des données à des fins d'analyse, ont également considérablement augmenté au cours de cette période. Passant d'environ 100 à plus de 200 IOPS.

Ces valeurs de performances sont bien entendu très éloignées de celles des SSD actuels. Cependant, comme de nombreux téraoctets ou pétaoctets de données sont impliqués, plusieurs disques durs sont de toute façon nécessaires pour traiter les opérations d'écriture et de lecture en parallèle dans les architectures de stockage actuelles. Les performances augmentent considérablement avec l'augmentation du nombre de disques durs : un seul système de stockage avec plusieurs dizaines de disques peut facilement atteindre plus de 15 Go/s et 15 000 IOPS :


Les fabricants de disques durs tels que Toshiba travaillent également en étroite collaboration avec les fournisseurs de systèmes de stockage et de contrôleurs pour trouver des options d'optimisation, développer des architectures de référence et élaborer les meilleures pratiques pour les entreprises utilisant ces solutions. En pratique, les valeurs de performances dépendent non seulement du matériel lui-même, mais également de sa configuration. Les tests effectués au Toshiba HDD Lab ont montré qu'un système avec 60 disques durs dans une configuration RAID60/RAID-Z2 (c'est-à-dire plusieurs groupes de disques durs en parallèle, chacun avec une double redondance) comme stockage de données pour les applications IA offre des performances de lecture/écriture séquentielles jusqu'à 10 Go/s sur un réseau et dispose également d'une certaine agilité avec 9 000 IOPS en écriture et 30 000 en lecture.

En fin de compte, cela dépend de l'application spécifique et des exigences de performances associées quant à l'équipement matériel et à la configuration. Ceci afin d’adapter au mieux pour capturer les données et les rendre disponibles pour l'IA.

Des capacités de stockage croissants

Ces dernières années, grâce à un développement continu, les disques durs ont conservé leur avantage de prix par rapport aux SSD - et continueront de le faire dans un avenir prévisible. Dans le passé, le remplissage à l'hélium et les disques plus fins, entre autres, garantissaient une augmentation de la capacité des disques d'environ 2 To par an alors que les coûts restaient les mêmes. Ce sont désormais les nouveaux procédés d'enregistrement MAMR et HAMR.

MAMR signifie Microwave Assisted Magnetic Recording et utilise des micro-ondes pour focaliser le flux magnétique au niveau de la tête d'enregistrement. Cela signifie que moins d'énergie magnétique est requise et que la tête d'enregistrement peut être plus petite. Une tête d'écriture plus petite signifie des bits et des pistes de données écrits de manière plus dense et donc une capacité de stockage plus élevée. Dans la prochaine génération de MAMR, les micro-ondes activeront également le matériau magnétique des disques, ce qui nécessitera encore moins d’énergie magnétique.

MAMR est déjà utilisé dans les modèles de disques durs actuels et permet des capacités allant jusqu'à 24 To par disque - en combinaison avec l'enregistrement magnétique Shingled (SMR), jusqu'à 28 To sont réalisables. Au cours des prochaines années, le MAMR devrait augmenter la capacité des disques durs jusqu'à 30 à 40 To avant que l'enregistrement magnétique assisté par chaleur (HAMR) ne prenne progressivement le relais. HAMR nécessite encore des travaux de développement, par exemple en termes de fiabilité et de coûts. Mais, HAMR a déjà démontré son potentiel pour des capacités plus élevées dans les prototypes.

HAMR utilise un laser en champ proche pour chauffer le matériau magnétique des disques afin que moins d'énergie magnétique puisse être utilisée pour l'écriture ; ce qui entraîne des têtes d'écriture plus petites et une densité de données plus élevée, comme avec MAMR. Cela signifie que les disques durs seront encore bien positionnés dans les années à venir pour absorber de manière fiable et économique la quantité croissante de données générées par les capteurs, les machines et les êtres humains et les rendre disponibles avec des performances élevées, à la fois pour l'entraînement de modèles d'IA et pour leur utilisation dans l'IA.




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store