Un data lake, parfois appelé lac de données, et un entrepôt de données sont deux méthodes de stockage, mais aux vocations opposées. Les entrepôts de données structurent et conditionnent les données dans une optique de qualité, de cohérence, de réutilisation et de performances simultanées élevées. Les data lakes viennent compléter les entrepôts en veillant à conserver le format original des données brutes et à assurer leur stockage sur le long terme à moindre coût, tout en ouvrant la voie à de nouvelles formes d’analyse agile.
La valeur des data lakes
Les
data lakes répondent à la nécessité d’exploiter et de valoriser de manière économique des volumes de données en pleine expansion. Ces «
dark data » issues de nouvelles sources – web, mobiles, objets connectés – ont souvent été délaissées par le passé, alors qu’elles recèlent parfois de précieuses informations. Leurs volumes massifs, auxquels s’ajoutent de nouvelles formes d’
analyse de données, nécessitent une nouvelle méthode pour gérer les données et en tirer toute la valeur.
Un
data lake est un ensemble de conteneurs de longue durée qui collectent, perfectionnent et explorent toutes formes de données brutes à l'échelle. Sa mise en œuvre est rendue possible par des technologies peu coûteuses dans lesquelles plusieurs systèmes en aval peuvent puiser, notamment les
data marts, les entrepôts de données et les moteurs de recommandation.
Avant l'
essor du Big Data, l’intégration des données normalisait les informations sous une forme persistante – dans une base de données, par exemple – afin de générer de la valeur. Or cela ne suffit plus pour gérer la totalité des données d'une entreprise, car toute tentative de structurer celles-ci en ôte toute la valeur. C’est pourquoi les
dark data sont rarement capturées dans une base de données, bien que les
data scientists les explorent souvent à la recherche d’éléments dignes d'intérêt.
Le data lake et les nouvelles formes d’analyse de données
Des technologies comme Spark et d’autres innovations permettent d'utiliser en parallèle des langages de programmation procéduraux, ce qui a donné naissance à une toute nouvelle catégorie d’analyses. Ces nouvelles formes d’analyse peuvent être effectuées efficacement à grande échelle, notamment au moyen d’algorithmes graphiques, textuels et de
machine learning qui obtiennent une réponse avant de la comparer à la donnée suivante, et ce jusqu’à parvenir à une conclusion.
Le data lake et la mémoire de l’entreprise
L’archivage des données inutilisées depuis longtemps peut permettre d'économiser de l’espace de stockage au sein d'un entrepôt de données. Avant l’invention du
data lake, il n’existait pas d’autre emplacement où conserver des données anciennes pour y accéder occasionnellement que l'entrepôt de données très performant ou les bandes de sauvegarde hors ligne. Au moyen d’outils de requêtes virtuels, les utilisateurs peuvent facilement accéder à ces données inactives, en même temps qu'aux données actives au sein de l’entrepôt à partir d’une requête unique.
Data lake et intégration des données
Le secteur a bouclé la boucle pour ce qui concerne la minimisation des coûts de transformation des données. Le
data lake offre une plus grande capacité de montée en charge que les serveurs ETL (
Extract, Transform, Load) classiques, et ce à moindre coût, contraignant les entreprises à repenser leur architecture d’intégration des données. Celles qui observent les meilleures pratiques modernes s'attachent à repenser la répartition de centaines de tâches d’intégration entre le
data lake, l’entrepôt de données et les serveurs
ETL, car chacun dispose de capacités et d'avantages économiques qui lui sont propres.
Les écueils courants des data lakes
De prime abord, les
data lakes apparaissent comme un moyen simple de gérer et d’exploiter des volumes conséquents de
données structurées et
non structurées. Cependant, ils ne sont pas aussi simples qu’ils en ont l’air et il n’est pas rare de voir des projets de data lakes échourer dans un grand nombre de secteurs et d’entreprises. Les premiers projets dans ce domaine ont rencontré des problèmes, car les bonnes pratiques faisaient encore défaut. Aujourd’hui, l’absence de conception robuste est la première raison pour laquelle les
data lakes n’exploitent pas toutes leurs capacités de création de valeur.
Silos de données et prolifération des clusters : il existe une idée reçue selon laquelle les
data lakes possèdent une faible barrière à l’entrée et peuvent être improvisés dans le
cloud. Cela aboutit à une redondance des données et à une incohérence entre les différents
data lakes, ainsi qu’à des problèmes de synchronisation.
Objectifs contradictoires pour l’accès aux données : il faut trouver un juste équilibre entre la rigueur des mesures de sécurité et la facilité d’accès aux données. Il convient pour cela de mettre en place des plans et procédures qui concilient les points de vue de toutes les parties prenantes.
Limitations des outils commerciaux : de nombreux fournisseurs affirment se connecter à
Hadoop ou à des systèmes de stockage objet dans le cloud, mais leurs offres souffrent d’un manque d’intégration poussée et la plupart de ces produits ont été conçus pour des entrepôts, et non pour des
data lakes.
Manque d’adhésion des utilisateurs : les utilisateurs ont l’impression – juste ou erronée – qu’il est trop compliqué d’obtenir des réponses à partir de
data lakes, car cela nécessite des compétences pointues de programmation, ou bien ils redoutent de ne pas parvenir à trouver l'information dont ils ont besoin dans la multitude de données.
Modèle structurel du data lake
La conception de la structure du data lake implique un ensemble de charges de travail et d’attentes qui déterminent le succès de sa mise en œuvre. Avec l’arrivée à maturité des technologies et l’expérience acquise dans ce domaine, une architecture et des exigences correspondantes ont émergé, de sorte que les principaux fournisseurs se sont accordés sur de bonnes pratiques de déploiement. Si les technologies jouent un rôle crucial, la structure – qui est indépendante de la technologie – est primordiale. Un data lake peut reposer sur diverses technologies. Même si HDFS (Hadoop Distributed File System) est le plus souvent la première qui vient à l’esprit, cette technologie n’est pas indispensable.