Amazon Web Services
Utiliser l’infrastructure AWS avec Teradata Vantage
Un référentiel ciblé avec un point de vue unique.
Le data mart est un sous-ensemble orienté sujet du modèle logique d’un entrepôt de données et est destiné à un groupe d’utilisateurs. De nombreux datamarts n’ont donc besoin que d’une partie des données des tables complètes de l’entrepôt. Par exemple, un data mart peut ne contenir que des données concernant les transactions, les produits et les stocks. La plupart des data marts ne comptent ainsi que 5 à 20 tables au lieu de 4 000.
Le nombre de tables d’un data mart est sans rapport avec la taille de la base de données. Les tables principales – appelées tables de faits – peuvent représenter des centaines de téraoctets correspondant, par exemple, aux enregistrements détaillés des appels d’un opérateur de télécommunications. Le data mart lui-même peut être d’une taille considérable, mais il s’agit néanmoins de données sélectionnées parmi toutes celles disponibles dans l’entrepôt.
Les data marts sont souvent dénormalisés et ne présentent que des résumés des données, triées et rassemblées dans une table de résultats, généralement lorsque les détails ont été supprimés. Certains data marts sont entièrement rechargés chaque semaine ou chaque mois. Il est relativement facile d’effacer toutes les données et de les rafraîchir de sorte que les rapports ne portent que sur les données transactionnelles des 30 derniers jours.
Modèle en étoile
Les data marts et le modèle en étoile sont intimement liés. Imaginez des lignes et des colonnes de données sur cinq feuilles de calcul au sein d’un tableur. Quatre d’entre elles sont connectées via des champs-clés correspondant à la feuille la plus grande, appelée table de faits. Imaginez que la table de faits compte 50 millions d’enregistrements, ce qui ne peut vraiment pas tenir dans une feuille de calcul, c’est pourquoi ceux-ci sont stockés dans les tables d’un data mart. La plupart des data marts se composent de 5 à 10 tables dans un modèle structuré en étoile. Les petites tables sur les branches de l’étoile sont appelées tables de dimension.
Modèle en flocon
Les tables de dimensions sont de petites tables contenant des informations essentielles. La table de faits stocke le plus gros des données, ce qui peut représenter des milliards d’enregistrements, et peut être jointe à la table des clients pour en extraire les noms et adresses. Une variante, le modèle en flocon, comporte davantage de tables de faits liées entre elles par des champs-clés. Chaque table de faits ne compte que quatre ou cinq tables de dimension. L’ensemble des tables et des relations ressemble au schéma d’un flocon mais n’en forme pas moins un data mart.
La distinction entre les data marts et les entrepôts de données réside dans les domaines de spécialité et l’intégration, dans la complexité des modèles, mais non dans la taille de la base de données. C’est pourquoi les questions qui peuvent être posées sont 100 fois plus complexes dans le cas d’un entrepôt de données que dans celui d’un data mart, car la totalité des données est contenue dans le premier.
Il existe de nombreuses « pièces de puzzle » dans l’entrepôt de données, qui correspondent à toutes les tables intégrées, regroupées par spécialités. L’entrepôt de données n’a pas besoin d'atteindre une taille considérable : cinq téraoctets peuvent suffire. Mais il peut aussi représenter des centaines de téraoctets d’enregistrements. Une autre solution consiste à stocker trois tables immenses au sein d'un data mart.
Chargement des données
Il existe un grand nombre d’outils qui permettent d'intégrer les données et les bases de données relationnelles qui les contiennent, ainsi que des dizaines d’excellents outils capables de les analyser. Heureusement, le transfert des données vers des outils business intelligence (BI) ne demande pas beaucoup de main-d’œuvre. Le coût réel réside dans le transfert et la transformation des données.
Déplacement de données
L’étape d’intégration demande quant à elle beaucoup de main-d’œuvre et de puissance de calcul, mais l’alternative consiste à donner aux utilisateurs métier des données endommagées, incomplètes ou inexactes, ce qui a tendance à pousser les utilisateurs à utiliser des feuilles de calcul. C’est pourquoi les données d’entrepôt de données sont précieuses et la prolifération des data marts risquée.
Teradata Vantage est la plateforme d'intelligence des données omniprésente. Son architecture compatible avec le cloud est conçue pour exploiter l'ensemble des données d’une entreprise, quel que soit l'endroit où celles-ci se trouvent. L’équipe en charge des services Teradata possède des connaissancs approfondies sur la manière d'aider les entreprises à obtenir les réponses dont elles ont besoin à partir des données dont elles disposent.
Amazon Web Services
Utiliser l’infrastructure AWS avec Teradata Vantage
Microsoft Azure
Combiner des ressources Azure avec Teradata Vantage
Google Cloud
Tirez parti de Google Cloud avec Teradata Vantage