Le concept de lac de données est assez récent : De quoi s’agit-il exactement ? Quels sont ses avantages ? Et y a-t-il un genre de monstre du Loch Ness qui nage au fond de l’eau de ce lac de données ?
Qu’est-ce qu’un Data Lake ?
Le terme « Data Lake » est en réalité défini au fur et à mesure de son développement. Bon, pour faire simple, un Data Lake conserve des données brutes (c’est à dire, dans leur format natif) en vue d’une utilisation ultérieure.
Terme inventé par James Dixon, – directeur technique de Pentaho, un logiciel de Business Intelligence – cette pratique a gagné en popularité et est aujourd’hui de plus en plus utilisée dans les initiatives de Big Data.
En tant qu’outil, le Data Lake perturbe le marché de l’intégration des données et contribue à redéfinir la manière dont les entreprises traitent leurs données. Pour donner une définition plus approfondie, un Data Lake stocke des informations disparates en ignorant presque tout. Contrairement à un Data Center classique, le lac ne prête aucune attention à la façon dont ses données seront utilisées, gouvernées, définies ou sécurisées, ni au moment où elles le seront, ou serviront : certaines données du lac ne seront peut-être même jamais utilisées.
Les initiatives Big Data ont commencé à utiliser ces lacs de données récemment, parce qu’un lac de données contient toutes ses données dans un format non structuré et non organisé. Puisque les données ne sont pas structurées, elles peuvent être manipulées de diverses manières, et dans de nombreux cas, le Big Data fonctionne mieux de cette manière.
En effet, par le passé les Data Centers étaient des zones de stockage suffisantes puisque mieux organisées : c’est toujours vrai, cependant il devient difficile pour les data-scientists de découvrir de nouvelles informations lorsque les données sont déjà pré-organisées.
Un des avantages du lac de données est que toutes les informations qui y sont stockées sont disponibles à tout moment, dans leur format d’origine. Évidemment, cela prend plus de temps d’aller d’un point A à un point B, mais dans un monde toujours plus concurrentiel, où chaque octet de données compte, le Data Lake peut être très intéressant. Si l’on considère que l’Internet des objets est la prochaine grande tendance de l’intégration des données, alors c’est sans doute le moment de s’y intéresser et c’est pourquoi sa popularité devrait continuer à croître.
Nous allons en voir les avantages, et les inconvénients.
Quels sont les avantages du Data Lake ?
Le stockage d’un gros volume de données
Le premier avantage d’un Data Lake, c’est qu’il permet de stocker des volumes considérables de données protéiformes : qu’elles soient structurées ou non, issues de tout type de bases de données ou non… le Data Lake est par nature totalement neutre quant au type d’informations qu’il contient. C’est précisément parce qu’il n’a pas de schéma strict d’exploitation que le Data Lake est un outil précieux. Et pour cause, aucune des données qu’il contient n’est jamais altérée, dégradée ou déformée.
Une analyse data facilitée
Mais ce n’est pas le seul avantage d’un Data Lake. En effet, les données étant brutes, elles peuvent être analysées de manière ponctuelle, à la demande, avec pour objectif de détecter des tendances et générer des rapports en fonction des besoins de l’entreprise, sans que cela ne devienne un projet pharaonique impliquant une autre plateforme ou un autre référentiel de données.
Les données disponibles dans le Data Lake sont facilement exploitables, en temps réel, et permettent d’inscrire votre entreprise dans un schéma « data centré » afin que vos décisions, vos choix, vos stratégies ne soient jamais déconnectés de la réalité du marché ou de vos activités.
Attention : Attention, les données brutes stockées dans un Data Lake peuvent (et doivent) être traitées de manière spécifique, dans le cadre d’un projet plus structuré. Mais les équipes de data scientists de votre entreprise sauront qu’elles ont, à portée de clic, un minerai non raffiné qui peut être mis à profit dans le cadre d’une analyse de données approfondie.
Une technologie bon marché
Le lac de données est conçu pour fonctionner sur du matériel basique, peu onéreux, et est exploitable à l’aide de logiciels open-source : d’un point de vue matériel et logiciel, le moins qu’on puisse dire est que la mise en place d’un Data Lake représente un coût négligeable.
Un endroit unique pour vos données
Un Data Lake ne se préoccupe pas de la nature des données : il les stocke et les traite toutes, qu’elles soient déjà structurées, semi-structurées ou non structurées. Cette pratique réduit drastiquement le coût et le temps nécessaire, par rapport aux systèmes traditionnels.
Il y a beaucoup à gagner à avoir toutes vos données au même endroit, en mélangeant tous ces ensembles de données de nature différente.
Un nouveau monde de découvertes
Dans la pratique, un lac de données permet à celui qui l’exploite de découvrir des données inédites : à l’inverse d’un Data Center classique, où l’utilisateur est limité dans les questions qu’il peut poser et les réponses qu’il obtient, dans un lac de données les possibilités ne sont limitées que par la somme totale de toutes les données.
Bien sûr, il peut se baigner dans son lac de données en apportant la même série de questions qu’il avait à poser à son Data Center classique, et obtenir les mêmes réponses (ou de meilleures réponses).
Mais il peut également poser des questions différentes, impossibles à poser jusqu’alors, et ainsi d’obtenir encore plus de réponses et parfois d’en retirer de meilleures informations.
Une capacité d’analyse avancée
De nombreuses suites logicielles incluent des analyses descriptives qui montrent à l’utilisateur une interprétation de ce qui s’est passé, bien souvent à grands renforts de visuels, et diagrammes en tout genre.
Cette capacité de traitement de données existe depuis des décennies. Mais avec l’essor du big data, les entreprises ont besoin de plus, comme des analyses prescriptives, prédictives et diagnostiques, afin de garder une longueur d’avance sur le marché, et sur leurs concurrents. Un lac de données offre cette possibilité.
Quels sont les inconvénients du Data Lake ?
Des données non filtrées
Cependant, tout n’est pas parfait au lac : on le sait désormais, il permet d’effectuer des recherches plus avancées en se basant sur des volumes de données beaucoup plus importants. Cependant, il n’existe pas d’identifiants uniques : puisqu’il n’y a pas de métadonnées, l’extracteur doit donc toujours repartir de zéro, à chaque nouvelle analyse.
Il est beaucoup plus fastidieux de se lancer dans des recherches au sein d’un ensemble de données non filtrées, lorsque rien n’est classé dans une catégorie ou une classe. En un mot comme en cent, il est difficile de tirer profit d’un lac de données, ou tout y est « en vrac », plutôt qu’au sein d’un environnement à l’intérieur duquel chaque chose est à sa place. Cela va poser d’autres problèmes qui coulent alors de source (lac, source, vous l’avez ?)
L’utilité de conserver certaines données
Comme les données stockées ne sont pas définies à priori, il n’y a aucune forme de contrôle sur ce qui est déversé dans le lac.
Les données sont-elles utiles ? Personne ne peut savoir, en tout cas pas tant qu’elles ne soient analysées : au moins, dans Data Center, les données peuvent être qualifiées, organisées, et leur pertinence est reconnue. Le lac est un capharnaüm.
À lire aussi : Les meilleurs outils data cleansing pour nettoyer vos données
La sécurité des données
Facile à anticiper, celui-ci n’est-ce pas ? La mise en place d’un Data Lake pose également des problèmes de sécurité : en effet puisque personne n’a la maîtrise ni la connaissance de ce qui se trouve dans le lac, il est probable que certaines données soient corrompues et qu’on ne le découvre que trop tard.
Cet inconvénient est important, car un grand nombre d’entreprises a commencé à utiliser cette technologie sans vraiment se soucier de l’aspect de la sécurité des données, qui ne doit pourtant souffrir d’aucun compromis.
Et la loi ?
Les problèmes avec le Data Lake ne vont pas s’arrêter là, puisque depuis que différentes réglementations sur la protection de la vie privée (telles que la RGPD) sont pleinement en vigueur, les entreprises de l’Union européenne sont obligées d’honorer toute demande de suppression des informations personnelle qu’elles possèdent sur une personne.
Les Data Lakes sont un bourbier juridique potentiel.
Peu d’outils pour draguer le fond du lac
Les outils de veille stratégique traditionnels ont bien du mal avec tout ce qui se trouve dans le lac. Les solutions de Business Intelligence sont pour la plupart conçues pour analyser des données organisées, et ne fonctionnent tout simplement pas de manière satisfaisante lorsqu’on leur demande de traiter des informations qui ne sont pas structurées.
Bien que les Data Centers possèdent beaucoup moins de données, ils sont plus précis.
Manque de personnel qualifié
Exploiter un lac de données exige des compétences particulières, et la pratique étant récente, les intégrateurs suffisamment qualifiés sont rares, pour le moment.
Conclusion
Les Data Lakes sont dotés de nombreuses qualités, et offrent des opportunités qu’il faudra saisir dans un avenir proche. Une entreprise tournée vers l’avenir peut se doter des moyens nécessaires à la mise en œuvre d’un lac de données, afin d’en tirer pleinement partie, pour un faible investissement de départ.
Il existe cependant un certains nombre de points faibles, qui ne peuvent pas être ignorés tant ils peuvent s’avérer préjudiciables.
Besoin d’aide dans votre stratégie data ? Trouvez des freelances expert en data strategy gratuitement sur Codeur.com !