Le
data mart, parfois traduit par « magasin de données » ou « comptoir de données », est un sous-ensemble orienté sujet du modèle logique d’un
entrepôt de données et est destiné à un groupe d’utilisateurs. De nombreux datamarts n’ont donc besoin que d’une partie des données des tables complètes de l’entrepôt. Par exemple, un
data mart peut ne contenir que des données concernant les transactions, les produits et les stocks. La plupart des
data marts ne comptent ainsi que 5 à 20 tables au lieu de 4 000.
Tables de faits d’un datamart
Le nombre de tables d’un
data mart est sans rapport avec la taille de la base de données. Les tables principales – appelées tables de faits – peuvent représenter des centaines de
téraoctets correspondant, par exemple, aux enregistrements détaillés des appels d’un opérateur de télécommunications. Le
data mart lui-même peut être d’une taille considérable, mais il s’agit néanmoins de données sélectionnées parmi toutes celles disponibles dans l’entrepôt.
Les
data marts sont souvent dénormalisés et ne présentent que des résumés des données, triées et rassemblées dans une table de résultats, généralement lorsque les détails ont été supprimés. Certains
data marts sont entièrement rechargés chaque semaine ou chaque mois. Il est relativement facile d’effacer toutes les données et de les rafraîchir de sorte que les rapports ne portent que sur les données transactionnelles des 30 derniers jours.
Data mart et modèle en étoile
Les
data marts et le modèle en étoile sont intimement liés. Imaginez des lignes et des colonnes de données sur cinq feuilles de calcul au sein d’un tableur. Quatre d’entre elles sont connectées via des champs-clés correspondant à la feuille la plus grande, appelée table de faits. Imaginez que la table de faits compte 50 millions d’enregistrements, ce qui ne peut vraiment pas tenir dans une feuille de calcul, c’est pourquoi ceux-ci sont stockés dans les tables d’un
data mart. La plupart des
data marts se composent de 5 à 10 tables dans un modèle structuré en étoile. Les petites tables sur les branches de l’étoile sont appelées tables de dimension.
Data mart et modèle en flocon
Les tables de dimensions sont de petites tables contenant des informations essentielles. La table de faits stocke le plus gros des données, ce qui peut représenter des milliards d’enregistrements, et peut être jointe à la table des clients pour en extraire les noms et adresses. Une variante, le modèle en flocon, comporte davantage de tables de faits liées entre elles par des champs-clés. Chaque table de faits ne compte que quatre ou cinq tables de dimension. L’ensemble des tables et des relations ressemble au schéma d’un flocon mais n’en forme pas moins un
data mart.
Quelle est la différence entre un data mart et un entrepôt de données ?
La distinction entre les
data marts et les entrepôts de données réside dans les domaines de spécialité et l’intégration, dans la complexité des modèles, mais non dans la taille de la base de données. C’est pourquoi les questions qui peuvent être posées sont 100 fois plus complexes dans le cas d’un entrepôt de données que dans celui d’un
data mart, car la totalité des données est contenue dans le premier.
Il existe de nombreuses « pièces de puzzle » dans l’entrepôt de données, qui correspondent à toutes les tables intégrées, regroupées par spécialités. L’entrepôt de données n’a pas besoin d'atteindre une taille considérable : cinq téraoctets peuvent suffire. Mais il peut aussi représenter des centaines de téraoctets d’enregistrements. Une autre solution consiste à stocker trois tables immenses au sein d'un
data mart.
Data mart et chargement ou transfert de données
Il existe un grand nombre d’outils qui permettent d'intégrer les données et les bases de données relationnelles qui les contiennent, ainsi que des dizaines d’excellents outils capables de les analyser. Heureusement, le transfert des données vers des outils
business intelligence (BI) ne demande pas beaucoup de main-d’œuvre et n’est pas très volumineux. Les données sont envoyées en petites quantités vers l’outil de BI pour être visualisées au moyen de rapports ou de tableaux de bord.
Les véritables coûts sont liés au transfert des données et à leur transformation à d’autres fins. Il est coûteux et souvent chronophage d’extraire et de transformer les données. L’étape d’intégration nécessite beaucoup de main-d’œuvre et de traitement informatique mais, faute de cela, les utilisateurs qui occupent des fonctions spécifiques recevront des données morcelées, incomplètes ou inexactes. Il est clair que le moyen le plus rapide pousser les utilisateurs à abandonner un entrepôt de données ou un
data mart est de leur fournir des données de mauvaise qualité et fragmentaires. S’ils ne peuvent pas faire confiance aux données, ils reviendront à leur tableur. Cela explique pourquoi les données d’un entrepôt sont si précieuses… et pourquoi la prolifération des
data marts au sein d’une entreprise est dangereuse lorsqu’il s’agit de véritablement apprécier l'état réel de son activité.