Trois raisons pour lesquelles le data mesh est peut-être l’architecture de données de demain
Malgré ces limites, le data mesh pourrait devenir l’architecture de données de demain pour trois raisons principales :
1. Agilité accrue et évolutivité organisationnelle supérieure
Le data mesh permet aux équipes d’accéder aux données et de les exploiter sous leurs propres conditions, sans avoir à passer par le goulot d’étranglement d’un entrepôt de données ou d’un data lake unique et centralisé à l’échelle de l’entreprise. Ils peuvent utiliser leurs propres entrepôts et data lakes comme des nœuds dans le data mesh, charger et interroger leurs données de domaine et créer des produits de données plus rapidement.
Les ingénieurs de données ne portent plus le fardeau de trier toutes les informations disparates qui sont déversées dans un entrepôt de données ou un data lake central, car les données sont gérées au sein de nombreux domaines plus restreints. Ainsi, tous les membres de l’entreprise peuvent réagir plus rapidement aux changements et faire évoluer leurs charges de travail si nécessaire à l’aide d’une plateforme d’infrastructure de données en libre-service.
2. Propriété et responsabilité des données claires
Avant l’émergence du data mesh, la propriété des données d’entreprise était souvent peu définie, voire contestée. Les équipes opérationnelles dans différents domaines envoyaient leurs données sur un emplacement centralisé, où elles étaient gérées par des ingénieurs de données spécialisés et isolés du reste de l’organisation.
Ces ingénieurs ont dû faire face à la tâche difficile de travailler avec des données provenant de domaines dans lesquels ils n’étaient pas nécessairement experts. Ils ont également servi d’intermédiaires entre les équipes de différents domaines travaillant sur le même projet, pour créer des ensembles de données exploitables par chacun.
Dans un data mesh, la propriété est clairement définie, en raison de sa conception orientée domaine. Les équipes peuvent adopter une approche de service et d’extraction – plutôt que la méthode traditionnelle push and ingest décrite ci-dessus – selon laquelle différentes équipes travaillent dans les domaines qu’elles connaissent, rendent les produits de données disponibles à l'ensemble de l’entreprise et accèdent aux produits d’autres équipes selon les besoins.
3. Amélioration de la qualité des données et culture DevOps
Étant donné que la propriété des données est clairement définie dans un data mesh, les équipes sont davantage incitées à garantir la qualité de leurs produits de données avant de les rendre accessible de manière distribuée. La qualité est encore améliorée par la connexion étroite du concept de data mesh avec les principes fondamentaux de DevOps.
Les DevOps mettent l’accent sur la collaboration par le biais d’équipes interfonctionnelles, ainsi que sur le monitoring et l'amélioration continus des produits. Lorsque les principes DevOps, tels que la décomposition du travail en plus petites parties qui sont plus faciles à gérer et la création d’une vision de produit partagée, sont appliqués au sein d'un data mesh, les différents composants de l’architecture de données sont plus faciles à utiliser, à itérer et à maintenir.
Des produits de données de meilleure qualité peuvent alors être créés plus rapidement qu’auparavant. Tout comme les DevOps sont un mouvement culturel autant que technique, un data mesh nécessite la mise en place d'une culture adaptée – une culture qui met l’accent sur la responsabilité et la collaboration – pour que ses technologies profitent à l’entreprise. Les DevOps eux-mêmes contribuent à ce changement culturel.
Mise en place d’un data mesh : considérations essentielles avant de commencer
Avant de se lancer dans le data mesh, les entreprises doivent d’abord prendre en compte quelques considérations essentielles :
Taille et exigences de l’entreprise
Le data mesh est la solution idéale pour les grandes entreprises qui diposent de nombreuses sources et domaines, où il existe des frictions potentielles entre les équipes pour savoir qui possède quoi.
Si une entreprise décide d'opter pour un data mesh, la distribution des domaines doit être étroitement alignée avec les initiatives commerciales réelles, telles que la création d’une expérience client omnicanal ou l’optimisation de la chaîne d’approvisionnement. Un tel alignement s'accompagne d'objectifs plus clairs pour les équipes de données de domaine et garantit que le data mesh génère une réelle valeur commerciale, plutôt que d’être une simple expérience.
Expertise en matière de gestion et de gouvernance des données
Bien que chaque équipe de domaine soit propriétaire de ses données, cela ne signifie pas qu’il n’y a pas besoin de coordination et de gouvernance à l’échelle de l’entreprise. Les outils modernes permettent aux utilisateurs de commence plus facilement à travailler avec des charges de travail complexes, mais la sélection et la mise en œuvre de ces outils nécessitent toujours un monitoring approfondi de la part d’experts.
Les experts en gestion des données sont également utiles pour guider chaque équipe dans le développement de ses processus et produits. Résoudre ces problèmes dès le début, en bénéficiant de conseils expérimentés, permet à l’ensemble de l’entreprise d’économiser du temps et des dépenses plus tard.
Colocalisation et performances du schéma
Chaque domaine doit avoir un schéma de données distinct, afin de supprimer les goulots d’étranglement qui découlent de l’utilisation d’un schéma pour toutes les données. Dans certains scénarios, les schémas doivent être colocalisés et connectés pour des raisons de performances. Dans le même temps, il est important de se rappeler que l’intégration des données dans tous les domaines d’un data mesh est essentielle. Cela permettra à votre entreprise de générer des performances orientées vers l’entreprise grâce à des stratégies de placement de données.
Ces étapes offrent une combinaison optimale entre vitesse et coût pour les charges de travail très complexes, fréquemment jointes à d’autres ensembles de données et régulièrement réutilisées, tant qu’une structure de données à performances élevées est en place.