(Source Teradata)
Dans cette première partie, nous aborderons les évolutions matérielles, principalement axée sur l’adéquation entre les types de stockage et ce que Teradata appelle à juste titre la température des données. La seconde partie sera consacrée aux évolutions logicielles et en particulier la « spatialisation » des données d’entreprise.
L’analyse par Todd Walter de l’expérience et des besoins des grands clients de Teradata a conduit à quelques constats presque banals sur l’augmentation du volume de données générées, du besoin accru d’analyses rapides et détaillées si nécessaire, et entre autres du développement des applications règlementaires. Autre constat sur lequel Teradata va s’appuyer pour faire évoluer son offre matérielle, la corrélation entre l’ancienneté d’une donnée et sa « température ». « Plus une donnée est ancienne, plus sa fréquence d’accès et donc sa température baisse. Mais il y a certaines circonstances dans lesquelles une donnée ancienne peut devenir de nouveau ‘chaude’ », explique Todd Walter. Cela imposerait de mettre à la disposition des utilisateurs un entrepôt de données dans lequel toutes les données restent disponibles, tout en séparant du point de vue technologique les données chaudes, froides et dormantes. Mais l’accès à ces données dormantes doit rester possible, comme leur réactivation.
Une mesure de la température moyenne de ces données montrerait que 43 % des opérations de lecture/écriture concerneraient les 1,5 % de données les plus chaudes, et 94 % des opérations de lecture/écriture concerneraient 30 % des données. Les 70 % de données restantes ne consommant donc que 6 % des opérations d’entrées/sorties. Il paraît donc logique d’utiliser des techniques différentes, afin d’optimiser l’accès aux données chaudes, sans pour autant reléguer à l’archivage les données dormantes.
L’analyse par Todd Walter de l’expérience et des besoins des grands clients de Teradata a conduit à quelques constats presque banals sur l’augmentation du volume de données générées, du besoin accru d’analyses rapides et détaillées si nécessaire, et entre autres du développement des applications règlementaires. Autre constat sur lequel Teradata va s’appuyer pour faire évoluer son offre matérielle, la corrélation entre l’ancienneté d’une donnée et sa « température ». « Plus une donnée est ancienne, plus sa fréquence d’accès et donc sa température baisse. Mais il y a certaines circonstances dans lesquelles une donnée ancienne peut devenir de nouveau ‘chaude’ », explique Todd Walter. Cela imposerait de mettre à la disposition des utilisateurs un entrepôt de données dans lequel toutes les données restent disponibles, tout en séparant du point de vue technologique les données chaudes, froides et dormantes. Mais l’accès à ces données dormantes doit rester possible, comme leur réactivation.
Une mesure de la température moyenne de ces données montrerait que 43 % des opérations de lecture/écriture concerneraient les 1,5 % de données les plus chaudes, et 94 % des opérations de lecture/écriture concerneraient 30 % des données. Les 70 % de données restantes ne consommant donc que 6 % des opérations d’entrées/sorties. Il paraît donc logique d’utiliser des techniques différentes, afin d’optimiser l’accès aux données chaudes, sans pour autant reléguer à l’archivage les données dormantes.
« La manière dont les entreprises vont architecturer, acquérir et déployer leurs infrastructures de stockage va fondamentalement évoluer dans les quatre prochaines années, explique Todd Walter. Deux raisons à cela : le goulot d’étranglement que constitue aujourd’hui les entrées/sorties disques alors que la puissance des processeurs est en progression constante en particulier depuis la multiplication des « cœurs » ; et l’émergence de la technique des disques SSD (Solid State Drives) qui permet des vitesses de lecture et d’écriture sans comparaison avec les disques durs magnétiques. Les processeurs ont en effet « explosé » la loi de Moore avec les technologies multi-cœurs. Seuls les SSD avec des vitesses de lecture/écriture 22 fois plus rapides que les disques mécaniques, et une fiabilité bien meilleure, peuvent être les auxiliaires de ces nouveaux micro-processeurs.
Force des disques SSD, ils sont parfaitement compatibles avec les disques rotatifs. Ce qui permet de les insérer dans une architecture traditionnelle. Un disque SSD émule un disque rotatif, il est compatible du point de vue alimentation électrique, et s’insère physiquement dans les mêmes baies de stockage. Parmi les avantages, outre la vitesse d’accès, une consommation électrique inférieure de l’ordre de 60 %, en revanche tous les disques SSD ne sont pas fabriqués de la même manière et la qualité des composants assemblés peut fortement varier. Alors que l’échelle des prix est encore large, les capacités restent inférieures aux disques rotatifs, mais le choix d’un modèle bas de gamme peut réduire les performances globales obtenues.
Teradata va donc équiper ses machines de disques SSD à 2,5 et 3,5 pouces. L’objectif est de fournir en 2011 des disques SSD de 150 à 600 Go, capable de réaliser 400 000 entrées/sorties par seconde (contre 80 pour un disque traditionnel) et de fournir un débit de 1000 Mb/s (contre 140 pour un disque rotatif). L’idée n’est bien sur pas de stocker l’ensemble des données de l’entreprise sur ces disques SSD, mais d’adapter le support matériel à la température de la donnée. Fournir une infrastructure composée de plusieurs types de disques n’a rien d’extraordinaire. Toute la difficulté est dans la mesure de la température des données et le choix des bons supports pour chaque température de données. Teradata considère que pour être efficace, une telle répartition doit être automatique et dynamique. Cela ne doit pas être du ressort d’un administrateur humain. La température de chaque donnée doit être mesurée en permanence, elle en devient d’ailleurs elle-même une méta-donnée. Le déplacement des données d’un support vers l’autre en fonction de sa température doit également être automatisé, et transparent pour l’utilisateur.
L’idée est donc de stocker l’ensemble des données de l’entreprise dans un seul entrepôt, le concept de « Enterprise Data Warehouse » prôné par Teradata ; et de laisser le système décider seul de l’affectation des données et de leur gestion, en fonction de leur température, tout en conservant toutes les données, disponibles à tout moment.
Dans cette nouvelle infrastructure Teradata pense pouvoir améliorer les performances tout en réduisant de moitié l’espace de stockage, entrainant une réduction proportionnelle de la consommation électrique et de la place occupée.
Tout cela sera exploité par la version 13.10 de la base de données Teradata dont la sortie est prévue au 3ème trimestre 2010, et qui sera l’objet de l’article de la semaine prochaine.
Force des disques SSD, ils sont parfaitement compatibles avec les disques rotatifs. Ce qui permet de les insérer dans une architecture traditionnelle. Un disque SSD émule un disque rotatif, il est compatible du point de vue alimentation électrique, et s’insère physiquement dans les mêmes baies de stockage. Parmi les avantages, outre la vitesse d’accès, une consommation électrique inférieure de l’ordre de 60 %, en revanche tous les disques SSD ne sont pas fabriqués de la même manière et la qualité des composants assemblés peut fortement varier. Alors que l’échelle des prix est encore large, les capacités restent inférieures aux disques rotatifs, mais le choix d’un modèle bas de gamme peut réduire les performances globales obtenues.
Teradata va donc équiper ses machines de disques SSD à 2,5 et 3,5 pouces. L’objectif est de fournir en 2011 des disques SSD de 150 à 600 Go, capable de réaliser 400 000 entrées/sorties par seconde (contre 80 pour un disque traditionnel) et de fournir un débit de 1000 Mb/s (contre 140 pour un disque rotatif). L’idée n’est bien sur pas de stocker l’ensemble des données de l’entreprise sur ces disques SSD, mais d’adapter le support matériel à la température de la donnée. Fournir une infrastructure composée de plusieurs types de disques n’a rien d’extraordinaire. Toute la difficulté est dans la mesure de la température des données et le choix des bons supports pour chaque température de données. Teradata considère que pour être efficace, une telle répartition doit être automatique et dynamique. Cela ne doit pas être du ressort d’un administrateur humain. La température de chaque donnée doit être mesurée en permanence, elle en devient d’ailleurs elle-même une méta-donnée. Le déplacement des données d’un support vers l’autre en fonction de sa température doit également être automatisé, et transparent pour l’utilisateur.
L’idée est donc de stocker l’ensemble des données de l’entreprise dans un seul entrepôt, le concept de « Enterprise Data Warehouse » prôné par Teradata ; et de laisser le système décider seul de l’affectation des données et de leur gestion, en fonction de leur température, tout en conservant toutes les données, disponibles à tout moment.
Dans cette nouvelle infrastructure Teradata pense pouvoir améliorer les performances tout en réduisant de moitié l’espace de stockage, entrainant une réduction proportionnelle de la consommation électrique et de la place occupée.
Tout cela sera exploité par la version 13.10 de la base de données Teradata dont la sortie est prévue au 3ème trimestre 2010, et qui sera l’objet de l’article de la semaine prochaine.