Prerequis
Bases solides en programmation (Python ou Java) et SQL. Experience en analyse de donnees recommandee.
Etape 1 : SQL et modelisation avances (1-2 mois)
- PostgreSQL avance (window functions, CTE, optimisation)
- Modelisation dimensionnelle (star schema, snowflake)
- Data warehouse vs data lake vs lakehouse
Etape 2 : Python pour le data engineering (1-2 mois)
- Programmation orientee objet
- Gestion de fichiers (CSV, JSON, Parquet, Avro)
- APIs et web scraping
- Tests unitaires et qualite de code
Etape 3 : Big Data (2-3 mois)
- Apache Spark (PySpark)
- Concepts distribues (partitionnement, shuffle)
- Delta Lake / Iceberg
- Streaming : Kafka, Spark Streaming
Etape 4 : Orchestration (1 mois)
- Apache Airflow (DAGs, operators, XCom)
- Scheduling et monitoring
- Alternatives : Prefect, Dagster
Etape 5 : Cloud (2 mois)
- AWS : S3, Glue, Redshift, Athena, Lambda
- OU GCP : BigQuery, Dataflow, Cloud Storage, Pub/Sub
- Infrastructure as Code (Terraform)
- Securite et IAM
Etape 6 : DevOps pour la data (1 mois)
- Docker et conteneurisation
- CI/CD pour les pipelines
- Monitoring et alerting
- Data quality (Great Expectations, dbt tests)
Timeline
9-15 mois pour un profil avec des bases en dev ou data.