🌊
data

Data Lake

Stockage centralise de donnees brutes dans leur format natif, a grande echelle.

Definition

Un data lake (lac de donnees) est un systeme de stockage centralise qui contient des donnees brutes dans leur format natif — structurees (CSV, Parquet), semi-structurees (JSON, XML), et non structurees (images, logs, videos) — jusqu'a ce qu'elles soient necessaires pour l'analyse.

Contrairement au data warehouse qui impose un schema avant le chargement, le data lake stocke les donnees telles quelles et le schema est applique a la lecture (schema-on-read).

Architecture

Sources → Ingestion → Raw Zone → Curated Zone → Consumption Zone
            ↓           ↓              ↓               ↓
       Airbyte/Kafka   S3/GCS    Spark/dbt        BI/ML/API
       (brut)         (brut)    (nettoye)        (exploite)

Zones du data lake

  1. Raw (Bronze) : donnees brutes, telles qu'elles arrivent
  2. Curated (Silver) : donnees nettoyees, deduplicquees, validees
  3. Consumption (Gold) : donnees agregees, pretes pour l'analyse et le ML

Technologies de stockage

  • AWS S3 : le standard, ~0.023$/Go/mois
  • Google Cloud Storage : equivalent GCP
  • Azure Data Lake Storage : equivalent Azure
  • MinIO : alternative open source S3-compatible

Formats de fichiers

Format Type Usage
Parquet Colonnaire, binaire Standard analytique
Delta Lake Parquet + ACID Lakehouse (Databricks)
Iceberg Parquet + ACID Lakehouse (open source)
Avro Ligne, binaire Streaming (Kafka)
CSV/JSON Texte Echange, import simple

Le probleme du "data swamp"

Un data lake mal gere devient un "data swamp" (marecage) : des donnees inexploitables car non documentees, non cataloguees, de qualite inconnue.

Prevention :

  • Data Catalog : inventorier et documenter chaque dataset (AWS Glue Catalog, DataHub)
  • Data Quality : verifier la qualite a chaque etape (Great Expectations, dbt tests)
  • Data Governance : controles d'acces, lineage, retention policies
  • Metadata : qui a cree la donnee, quand, d'ou vient-elle

Evolution : le Lakehouse

Le Lakehouse combine data lake (stockage flexible, cout faible) et data warehouse (ACID, SQL, performance) :

  • Delta Lake (Databricks) : transactions ACID sur Parquet
  • Apache Iceberg : tables versionnees, time travel
  • Apache Hudi : upserts, incremental processing

Besoin d'aide technique ?

Decrivez votre projet pour des conseils personnalises par nos experts.

Recevoir des conseils

Questions frequentes

Data lake ou data warehouse ?
Les deux, souvent. Le data lake stocke les donnees brutes a faible cout. Le data warehouse sert les requetes analytiques performantes. Le lakehouse moderne combine les deux.
Parquet ou CSV pour un data lake ?
Parquet, toujours. Il est 10-100x plus rapide en lecture, 5-10x plus compact, et supporte le schema et la compression. CSV est acceptable uniquement pour l'import initial.
Comment eviter que mon data lake devienne un data swamp ?
Implementez un data catalog (DataHub, Glue Catalog), des tests de qualite (dbt tests, Great Expectations), et une politique de nommage et de retention. La gouvernance des donnees est essentielle.

Pages liees

Chaque semaine, le meilleur de la tech francaise

Tendances, salaires, outils et opportunites — directement dans votre boite mail.

Gratuit. Desabonnement en un clic. Pas de spam.