RAG : Retrieval Augmented Generation en pratique
Le probleme du contexte
Les LLMs ont une connaissance figee a leur date d'entrainement. RAG permet de leur fournir du contexte a jour en recuperant des documents pertinents avant la generation.
Pipeline RAG
1. Indexation : decoupez vos documents en chunks, generez des embeddings, stockez dans une base vectorielle (Pinecone, Weaviate, pgvector).
2. Retrieval : pour chaque requete, trouvez les chunks les plus proches semantiquement.
3. Generation : passez les chunks recuperes comme contexte au LLM avec la question de l'utilisateur.
Optimisations
Le chunking strategy est crucial. Trop petit = perte de contexte. Trop grand = bruit. Experimentez avec des chunks de 500-1000 tokens avec overlap.