Qu'est-ce qu'un data lake?

19 mai, 2024

1 min

Contact us

Ce matin en rentrant de vacances, vous avez failli lâcher votre tasse de café (de désespoir) en écoutant votre data scientist partager son expérience “fabuleuse” avec ses nouvelles bases de données. Triste nouvelle, nous ne parlerons pas de voyages aujourd'hui, mais d’une solution de stockage de données qui peut vous permettre de gérer toutes vos feuilles de calcul, de stocker les informations sur vos utilisateurs et tous autres types de données entassés sur un coin de votre bureau.   

Un data lake également appelé “lac de données” ne ressemble en rien à une flaque d'eau géante. Si vous n’acceptez plus l’analyse approximative de vos données, cet outil peut vraiment vous intéresser. Vos data scientists sont peut-être bons, mais sans les outils appropriés, ils peuvent manquer de précision d'exécution.

Qu'est-ce Qu'un Data lake ?

Un lac de données fonctionne comme une base de données qui vous permet de charger vos données brutes, semi-structurées et structurées. Dans un data lake, vous pouvez collecter des données provenant de toutes les sources. Il s'agit d' un stockage unique pour vos données CRM, les achats de vos clients ou encore vos feuilles de calcul comptables. 

En soi, un data lake n’est pas un outil de travail depuis lequel vous pouvez traiter vos données. Il s'agit plutôt d'un cloud. Ce n’est pas l’outil idéal pour simplifier vos données. Les data warehouses sont de bien meilleurs outils pour effectuer cette tâche.

À quoi sert un data lake ?

Que vous ayez besoin de stocker vos feuilles de calcul comptables pour établir votre budget ou générer de nouveaux prospects grâce à votre base de données clients actuelle, vous avez besoin de pouvoir accéder à vos données. Un lac de données est l'une des meilleures solutions de stockage. 

Mais, pourquoi en avez-vous besoin ? La réponse dépend certainement de la taille de votre entreprise. Un disque dur et une feuille de calcul peuvent suffire à une petite entreprise, mais pourraient devenir insuffisants pour des entreprises de plus grande taille.

Data lake vs data warehouse : comment les différencier ?

Que vos données soient brutes ou structurées, le schéma de traitement est le même. Vos données sont stockées pour être classées et organisées afin de les rendre accessibles à vos équipes. Mais comment? 

Après les avoir chargés sur votre lac de données, elles doivent être triés afin que vous puissiez les utiliser et les exploiter à des fins commerciales. Dans ce cloud, il y a souvent des bugs, des informations inutiles et des données non appropriées: ces défauts doivent être supprimés pour que votre analyse soit la plus fiable possible. 

Pour ce faire, vous pouvez utiliser un outil de traitement de données tel que Google Big Query. Le data warehouse de Google est un outil sans serveur. Grâce au machine learning, Big Query vous permet d' automatiser la classification de vos données. Si vous avez l'habitude de travailler avec les outils Google, BigQuery est fait pour vous ! Gardez à l'esprit que les lacs de données et les entrepôts de données sont complémentaires. Ils n’ont pas été conçus pour le même objectif. Un lac de données ne remplacera jamais un entrepôt de données.

Pourquoi stocker vos données
dans un data lake ?

  1. Il vous aide à gérer de gros volumes de données. Lorsque votre entreprise grandit, vous avez souvent besoin de plus d'espace de stockage. Les lacs de données sont flexibles et s’adaptent facilement aux variations de votre volume de données. Vous avez besoin d'un Tera de stockage de données en plus ? Ce n'est jamais un problème. 

  2. Il stocke différents types de données dans un format standardisé. Cela a deux implications principales : En cas de modification de la structure des données, vos données ne seront pas supprimées ou rendues inutilisables. Vous pouvez comparer différents types de données au même niveau car elles sont toutes stockées dans le même format. 

  3. Le temps de stockage est rapide car le stockage peut impliquer des données brutes qui n'ont pas besoin d'être traitées et classées au préalable. Notez que si vos données doivent être structurées en amont, le processus peut prendre plus de temps.

Un data lake : combien ça coûte ?

Cela dépend. En règle générale, plus vous faites de requêtes, plus vous payez. Examinons la tarification de 3 lacs de données différents. 

  • Pour vous permettre d’estimer le coût moyen des différents data lakes, nous avons choisi de nous intéresser au stockage Microsoft Azure, car leur tarification est relativement facile à comprendre. 

Vous pouvez voir dans cette grille qu'en fonction de l'option de stockage que vous choisissez, les prix peuvent varier. Le calculateur estime le coût par Go de votre stockage dont les valeurs sont ajustées selon votre emplacement de stockage et votre appareil directement depuis le site Web d'Azure.

En fonction de votre abonnement, vos données seront plus ou moins accessibles.

  Premium Hot Cool Archive
Pour les 50 premiers To/mois $0.18 par GB $0.0184 par GB $0.01 par GB $0.002 par GB
Pour les 450 To/mois suivants $0.18 par GB $0.0177 par GB $0.01 par GB $0.002 par GB
Pour 500 To/mois supplémentaires $0.18 par GB $0.0169 par GB $0.01 par GB $0.002 par GB

Source: https://azure.microsoft.com/en-us/pricing/details/data-lake-storage-gen1/ 

  • Vous pouvez également être intéressé par les services d’AWS, mais il en existe bien d'autres. Les services AWS faits sur mesure. Si vous souhaitez comparer Azure data lake au data lake d’Amazon, vous pouvez estimer le budget nécessaire pour stocker vos données grâce au calculateur de tarification AWS.

  • Et enfin : Google One. Si vous souhaitez calculer une estimation de vos dépenses : consultez le calculateur de prix de Google One. Pour vous donner un aperçu : 50 Go de stockage standard vous coûteront 1,00 $.

Les 3 étapes du traitement des données

Le traitement des données n'est pas un processus facile. Votre équipe informatique gère le traitement des données afin que vous et votre équipe puissiez les exploiter :

  1. Le stockage de données brutes sur un lac de données.

  2. Big Query vous aide à classer vos données. Il scanne les anomalies pour les supprimer et il classe vos données de manière personnalisée. Grâce à un ETL, vous pouvez rediriger vos données vers le data warehouse. 

  3. Le stockage et l'utilisation des données traitées dans votre data warehouse.

EN QUOI UN DATA LAKE PEUT-IL
AMELIORER L'EFFICACITE
DE VOTRE BUSINESS? 

Un data lake a pour objectif de stocker vos données brutes. Il n'a aucun intérêt réel pour vous si vous ne le traitez pas dans un entrepôt de données par la suite. 

Pour résumer : 

  • Vous traitez une grande quantité de données ? 

  • Si c'est le cas, pensez aux data lakes.

  • Pourquoi? Parce qu'il centralise le stockage de toutes vos données pour que vous puissiez y accéder à portée de main. Cela facilite la gestion de vos données, n'est-ce pas ? 

  • Pour qui? Quelles entreprises? Entreprises avec des bases de données massives. Donc : vous, si vous avez beaucoup à stocker. 

  • Comment? En soi, il ne fait que stocker, mais s'il est utilisé à bon escient avec un data warehouse, il facilitera votre analyse de données.

N'oubliez pas: vos bases de données valent la peine d'être analysées mais pour cela, elles doivent d’abord être stockées !

Par Emma Jeanpierre

27 janv., 2022