Compresser pour réduire les entrées/sorties
Dans la première partie de cette présentation, nous avons abordé les évolutions matérielles, principalement autour de la température des données et des disques SSD. «Aujourd’hui les ressources d’entrées/sorties deviennent plus rares que la puissance CPU; il redevient donc intéressant d’utiliser plus de ressources CPU pour économiser des entrées/sorties », explique Todd Walter.
Et cela passe par l’amélioration des algorithmes de compression. Pour cela, Teradata va permettre à l’administrateur d’une base de données de définir les algorithmes de compression qu’il souhaite utiliser, pour chaque colonne. Teradata fournira en standard deux algorithmes de compression/décompression et l’administrateur sera libre d’en connecter de nouveaux. Ils seront tout simplement définis lors de la création d’une table par une fonction telle que :
CREATE TABLE Customer
(Customer_account_number INTEGER,
Customer_address CHAR(200) CHARACTER SET UNICODE
COMPRESS USING SCSUCompress AND
DECOMPRESS USING SCSUDecompress);
Et Teradata ajoute un autre niveau de compression, par bloc de données, avant que ce dernier ne soit écrit physiquement sur le disque. Cette technique est bien entendu couteuse en ressources CPU, mais elle permet d’économiser des entrées/sorties.
Et cela passe par l’amélioration des algorithmes de compression. Pour cela, Teradata va permettre à l’administrateur d’une base de données de définir les algorithmes de compression qu’il souhaite utiliser, pour chaque colonne. Teradata fournira en standard deux algorithmes de compression/décompression et l’administrateur sera libre d’en connecter de nouveaux. Ils seront tout simplement définis lors de la création d’une table par une fonction telle que :
CREATE TABLE Customer
(Customer_account_number INTEGER,
Customer_address CHAR(200) CHARACTER SET UNICODE
COMPRESS USING SCSUCompress AND
DECOMPRESS USING SCSUDecompress);
Et Teradata ajoute un autre niveau de compression, par bloc de données, avant que ce dernier ne soit écrit physiquement sur le disque. Cette technique est bien entendu couteuse en ressources CPU, mais elle permet d’économiser des entrées/sorties.
Géolocaliser toutes les données
Pour Todd Walter, la prochaine évolution majeure dans le types de données gérées au sein d’un data warehouse est celle de la « spatialisation ». De nombreuses informations (clients, magasins, commandes, livraisons...) sont « géotaggées », le plus souvent au travers d’une simple adresse postale. Le référentiel utilisé est celui de l’administration postale, basée sur le pays, la ville, le code postal... ces références ne sont pas harmonisées d’un pays à l’autre, et elles ne contiennent aucune information qui permette de les mettre en relation. Rien ne vous dit que l’avenue de la mairie est proche de la rue de la gare. L’usage de ces adresses postales est un premier pas, mais les applications restent limitées.
En parallèle se développent des outils à usage personnel qui contiennent tous aujourd’hui une fonction de géolocalisation : GPS de voiture, appareils photos, téléphones mobiles, et il est aujourd’hui aisé de faire le lien entre ces outils et des services comme Google Earth ou Maps. Teradata propose donc de généraliser le géocodage des données de l’entrepôt décisionnel, afin de créer une méta-données supplémentaire. Ce géocodage passe par une transformation automatique des adresses postales en coordonnées latitude/longitude. Et pour aller plus loin que le simple codage de points, Teradata proposera de géocoder des lignes, c’est à dire des parcours et des polygones, qui peuvent être des parcours ou des zones.
Mais si la base de données peut stocker ces informations complémentaires, il faut également adapter toute la chaîne de la collecte à l’analyse des données, pour permettre la circulation des informations géographiques. Teradata s’appuie ici sur un middleware fourni par Safe Software. Cette société canadienne a développé un ETL spécialisé dans les données géographiques, pour alimenter les outils cartogaphiques.
L’intégration des données géographiques comme méta-données généralisées permettra ensuite de répondre à des questions telles que « combien ai-je de clients dans un rayon de 10 km ? », « quels sont mes clients qui se retrouvent dans la zone de chalandise d’un nouveau concurrent ? »... des questions auxquelles des outils comme Asterop savaient déjà répondre, mais qui n’étaient pas intégrés au coeur de la base de données.
Ces nouvelles données seront rattachées à un type ST_Geometry défini suivant les règles ANSI SQL/MM de 1999. Ce nouveau type de données est décliné en points, lignes, surfaces, et est proposé en standard dans Teradata 13. Sont également fournies quatre librairies contenant des fonctions de mesure, interactions, de positionnement dans l’espace et de gestion des attributs.
Une requête pourra donc faire appel à ces librairies, par exemple pour calculer une distance :
SELECT C.Customer_name, C.Location.ST_Distance(S.Location) FROM Customers C, Stores S
WHERE DISTANCE <= 1000.0
En revanche Teradata ne devrait pas proposer son propre outil de visualisation des données géographiques, mais s’appuyer sur les outils du marché, auxquels Teradata proposera des exports dans leurs formats de fichiers.
En parallèle se développent des outils à usage personnel qui contiennent tous aujourd’hui une fonction de géolocalisation : GPS de voiture, appareils photos, téléphones mobiles, et il est aujourd’hui aisé de faire le lien entre ces outils et des services comme Google Earth ou Maps. Teradata propose donc de généraliser le géocodage des données de l’entrepôt décisionnel, afin de créer une méta-données supplémentaire. Ce géocodage passe par une transformation automatique des adresses postales en coordonnées latitude/longitude. Et pour aller plus loin que le simple codage de points, Teradata proposera de géocoder des lignes, c’est à dire des parcours et des polygones, qui peuvent être des parcours ou des zones.
Mais si la base de données peut stocker ces informations complémentaires, il faut également adapter toute la chaîne de la collecte à l’analyse des données, pour permettre la circulation des informations géographiques. Teradata s’appuie ici sur un middleware fourni par Safe Software. Cette société canadienne a développé un ETL spécialisé dans les données géographiques, pour alimenter les outils cartogaphiques.
L’intégration des données géographiques comme méta-données généralisées permettra ensuite de répondre à des questions telles que « combien ai-je de clients dans un rayon de 10 km ? », « quels sont mes clients qui se retrouvent dans la zone de chalandise d’un nouveau concurrent ? »... des questions auxquelles des outils comme Asterop savaient déjà répondre, mais qui n’étaient pas intégrés au coeur de la base de données.
Ces nouvelles données seront rattachées à un type ST_Geometry défini suivant les règles ANSI SQL/MM de 1999. Ce nouveau type de données est décliné en points, lignes, surfaces, et est proposé en standard dans Teradata 13. Sont également fournies quatre librairies contenant des fonctions de mesure, interactions, de positionnement dans l’espace et de gestion des attributs.
Une requête pourra donc faire appel à ces librairies, par exemple pour calculer une distance :
SELECT C.Customer_name, C.Location.ST_Distance(S.Location) FROM Customers C, Stores S
WHERE DISTANCE <= 1000.0
En revanche Teradata ne devrait pas proposer son propre outil de visualisation des données géographiques, mais s’appuyer sur les outils du marché, auxquels Teradata proposera des exports dans leurs formats de fichiers.
Entrer dans la dimension temps
Dernier domaine d’extension des méta-données, la dimension temps. Là encore l’idée est d’associer à chaque événement touchant la base de données un codage temporel, et surtout de permettre de réaliser ensuite des opérations sur ces méta-données.
Cela passe par exemple par la gestion native de la notion de période (intervalle entre deux dates).
En conservant ces données temporelles il est possible de récupérer l’état d’un indicateur à un instant T et de répondre par exemple à la question, « combien de jeans de taille 42 avais-je en magasin le 6 janvier dernier à 16h ? ». Associé à l’usage d’étiquettes RFID, ce stockage des données temporel ouvre de nouvelles perspectives d’analyse...
Cela passe par exemple par la gestion native de la notion de période (intervalle entre deux dates).
En conservant ces données temporelles il est possible de récupérer l’état d’un indicateur à un instant T et de répondre par exemple à la question, « combien de jeans de taille 42 avais-je en magasin le 6 janvier dernier à 16h ? ». Associé à l’usage d’étiquettes RFID, ce stockage des données temporel ouvre de nouvelles perspectives d’analyse...
Autres articles
-
Teradata facilite l’application concrète de l’IA générative et accélère la création de valeur pour les entreprises
-
Teradata propose des capacités d’IA exceptionnelles pour les grandes entreprises et les environnements hybrides en collaboration avec NVIDIA
-
Les nouvelles fonctionnalités de ClearScape Analytics maximisent le retour sur investissement en matière d’IA/ML et renforcent la productivité de la data science
-
Teradata nomme Thomas Schröder au poste de vice-président, Europe
-
Teradata et DataRobot s’associent pour accélérer l’innovation dans le domaine de l’IA de confiance