Qu’est-ce qu’une data fabric ?
Une data fabric est une couche unifiée d’intégration et de gestion des données qui sert à interconnecter leurs endpoints dans le cloud et sur site. Elle a pour but d’éliminer les silos autonomes en rassemblant toutes les données et d’offrir aux utilisateurs un accès distribué et cohérent, ainsi qu’une gamme complète d’outils de découverte, d’intégration, d’orchestration et de gouvernance des données.
Les data fabrics prennent une importance particulière à présent que les écosystèmes d'analyse de données sont distribués pratiquement par définition, dans une large mesure en raison des tendances du cloud. Les entreprises répartissent leurs données entre des sites aussi divers que des plateformes de business intelligence s’appuyant sur des entrepôts de données et des data lakes basés sur Hadoop. Une data fabric est une sorte de fil conducteur reliant tous ces sites, connectant les sources de données à leurs consommateurs avec des capacités d’interrogation cohérentes, fiables et flexibles.
La data fabric est par ailleurs fortement automatisée et peut fédérer différents modes existants d’intégration et d'acheminement des données, par exemple le mode Bulk/Batch ou la virtualisation, qu’il est possible d’orchestrer, c’est-à-dire de configurer, gérer et coordonner automatiquement. Gartner, pionnier de ce concept, considère que les data fabrics modernes doivent en outre incorporer des technologies et pratiques récentes, notamment :
- l’intelligence artificielle (IA) et le machine learning (ML) à des fins d’activation et de gestion active des métadonnées,
- des graphes de connaissances sémantiques qui facilitent la matérialisation de nouveaux nœuds et des applications telles que le traitement du langage naturel,
- Les DataOps, une méthodologie agile permettant de raccourcir les cycles d'analyse grâce à des pratiques telles que le test et le monitoring automatisés ou le contrôle statistique des processus.
Il n’existe aucun logiciel capable de créer une data fabric complète. Chaque entreprise doit plutôt combiner des infrastructures déjà construites et achetées afin de constituer une data fabric répondant à ses besoins spécifiques.
Les 5 capacités essentielles de la data fabric
Lors de l’assemblage d’une structure de données, les entreprises doivent s’assurer qu’elle dispose des fonctionnalités suivantes :
1. Possibilité d’interrogation cohérente quel que soit le lieu
Une data fabric doit être capable de masquer la complexité sous-jacente des systèmes hétérogènes qu’il interconnecte, de sorte que les utilisateurs finaux tels que les data scientists puissent lancer leurs requêtes quel que soit l'endroit où ils se trouvent. Cet accès permanent et universel est l’avantage fondamental d’une data fabric. Les utilisateurs peuvent partir d’un data lake ou d’un entrepôt de données sur Hadoop mais, quelle que soit leur situation, ils doivent pouvoir disposer d’un accès bidirectionnel aux données et de connecteurs de qualité qui fonctionnent en parallèle pour exécuter les requêtes nécessaires.
2. Découverte, intégration et catalogage des données en continu
L’automatisation inhérente à l’architecture d’une data fabric lui permet de trouver activement des données issues de n'importe quelle source, puis d’intégrer ces sources un sein d'un graphe de connaissances qui met en évidence les liens essntiels. Le catalogue de données est lui aussi un élément important d’une data fabric, car il combine métadonnées et outils de recherche afin de permettre aux utilisateurs d'accéder à ce qu’ils recherchent, que ce soit dans un data lake, un entrepôt ou une autre structure.
3. Libre-service démocratisé
De même que l’infrastructure cloud elle-même, l’architecture d’une data fabric a pour but d’optimiser l’accès aux données pour ses utilisateurs, via des interfaces sécurisées en libre-service. Dans une récente étude consacrée à l’utilisation des data fabrics dans les entreprises, Forrester met en lumière deux facilitateurs essentiels de libre-service :
- L’IA et le ML qui automatisent les fonctionnalités susmentionnées, de la découverte à la tranfsormation des données, en passant par leur classification et leur acquisition.
- Des options « zero code » et « low-code » qui facilitent le déploiement d’une architecture de data fabric, aussi complexe soit-elle.
Globalement, le libre-service permet aux utilisateurs métiers de maîtriser leurs flux de travail en matière de préparation de données. Ceux-ci peuvent opérer dans des environnements de type « sandbox », en accédant aux données issues de n'importe quelle source et en utilisant leurs outils préférés pour les manipuler, voire les envoyer en production.
4. Conversion de métadonnées passives en métadonnées actives
Gartner met en exergue le caractère fondamental de cette capacité pour le concept de data fabric.
Les métadonnées passives sont statiques. Elles sont généralement créées durant la phase de conception et conservées pour documenter des éléments tels que les définitions métiers et les schémas de données. Les métadonnées actives sont dynamiques et offre des éclairages évolutifs sur des paramètres tels que la fréquence d’accès et la qualité des données.
Dans une data fabric, l’IA et le ML convertissent les métadonnées passives en métadonnées actives en les analysant continuellement, puis en créant un modèle de graphe facile à comprendre pour les utilisateurs. Ces algorithmes exploitent ensuite les résultats de cette analyse afin d’optimiser la gestion automatique des données au sein de l’écosystème de l’entreprise. Ainsi, les métadonnées actives contribuent à réduire le nombre des tâches manuelles nécessaires à la préparation et à l’exploration des données.
5. Évolutivité et flexibilité
Une data fabric doit être suffisamment flexible pour s’adapter aux changements, sans jamais faire obstacle à l’accès aux données. Des fonctionnalités sont essentielles pour la réalisation de cet objectif :
- Transfert des données en parallèle et en clusters
- Automatisation de la conversion des formats et de la gestion des types de données
- Capacité d’utiliser des fonctions spécifiques ou natives sur chaque plateforme
- Sécurité fondée sur des règles couvrant les différentes plateformes
- Monitoring quotidien des systèmes locaux et distants
- Traitement en pushdown pour optimiser les performances des charges de travail
Quels sont les principaux avantages d’une data fabric ?
L’un des principaux avantages d’une data fabric réside dans sa facilité d’utilisation, car elle offre un accès cohérent et distribué aux données. Cela se traduit par trois avantages induits :
1. Accélération de l'acheminement des données, sans faire de compromis sur la qualité
La technologie de la data fabric accélère aussi bien les phases de découverte et d’acquisition que d'acheminement ou de consommation des données. En outre, la qualité des données est continuellement affinée par des algorithmes d'IA et de ML qui s’appuient sur les métadonnées actives pour intégrer et gérer les données d’entreprise.
2. Consommation et collaboration en libre-service
Au moyen d’une solution de data fabric, les utilisateurs métiers comme les techniciens peuvent trouver ce qu’ils cherchent de manière rapide et cohérente. Cet atout est essentiel à l’heure où les entreprises font face à une prolifération du nombre des sources et de silos de données, ainsi que des utilisations du Big Data. La data fabric relie l’ensemble grâce à un fil conducteur facile à suivre.
3. Automatisation de l’intégration, de la gestion et de la gouvernance des données
L’architecture fortement automatisée des data fabrics leur permet d’effectuer des tâches qui mobilisaient précédemment beaucoup d’efforts manuels, telles que l’intégration des sources de données et l’analyse de leur qualité. Cette automatisation fait gagner du temps mais elle minimise également les risques d’erreurs et les problèmes liés à la conformité.
Exploiter les possibilités de la data fabric
Teradata QueryGrid, notre système de data fabric parallèle à grande vitesse, offre un niveau d’évolutivité, de flexibilité, d’intégration, de gestion complète et de gouvernance minutieuse des données dont les entreprises ont besoin. Les utilisateurs peuvent accéder aux données et les manipuler grâce aux outils de leur choix, au sein d'un environnement multicloud, cloud hybride ou sur site.
Pour apprendre comment créer votre propre data fabric, visionnez notre webinaire ci-dessous consacré au fonctionnement de QueryGrid associé à Teradata Vantage et Starburst Enterprise Presto, en vue de moderniser les environnements d'analyse et d’accélérer l'analyse de données.
Visionnez notre webinaire sur la structure de données