Qu'est-ce que le Big Data ?
Le Big Data designe les ensembles de donnees si volumineux, rapides ou complexes qu'ils depassent les capacites des outils traditionnels de gestion de donnees. Le concept est generalement decrit par les 5V : Volume (teraoctets a petaoctets de donnees), Velocite (flux de donnees en temps reel), Variete (donnees structurees, semi-structurees et non structurees), Veracite (fiabilite et qualite des donnees), et Valeur (transformer les donnees en insights actionnables).
Technologies de stockage
Hadoop HDFS : systeme de fichiers distribue, le fondement historique du Big Data. Stocke les fichiers en blocs repliques sur un cluster. Amazon S3 et Google Cloud Storage : stockage objet cloud illimite, souvent utilise comme data lake. Apache Parquet et ORC : formats de fichiers colonnes optimises pour l'analytique (compression, lecture selective de colonnes). Delta Lake, Apache Iceberg et Apache Hudi : formats de table ouverts ajoutant les transactions ACID et le time travel aux data lakes.
Technologies de traitement
Apache Spark : moteur de traitement distribue en memoire, successeur de MapReduce. APIs en Python (PySpark), Scala, Java. Supporte le batch et le streaming. Apache Flink : specialise dans le traitement de flux en temps reel avec garanties exactly-once. Apache Kafka : plateforme de streaming d'evenements pour l'ingestion et le transport de donnees en temps reel. dbt : outil de transformation de donnees SQL dans le data warehouse (approche ELT).
Architecture moderne des donnees
L'architecture Data Lakehouse combine les avantages du data lake (stockage bon marche, donnees brutes) et du data warehouse (requetes performantes, schema). Les plateformes modernes comme Databricks (Spark + Delta Lake), Snowflake (data warehouse cloud elastique), et Google BigQuery (serverless, separation stockage/calcul) offrent des solutions integrees. L'approche ELT (Extract, Load, Transform) remplace l'ETL classique : les donnees brutes sont chargees puis transformees dans le warehouse.
Metiers et competences
Le Big Data a cree des metiers specialises : le Data Engineer construit les pipelines de donnees (ingestion, transformation, orchestration). Le Data Analyst explore et visualise les donnees pour les decisions business. Le Data Scientist cree des modeles predictifs et du machine learning. Le ML Engineer deploie et optimise les modeles en production. Les competences cles incluent SQL, Python, Spark, les outils cloud, et la comprehension des architectures distribuees.