Qu'y a-t-il dans votre RAG ?

Un utilisateur de Reddit remet en question l'utilité pratique de la Génération Augmentée par Récupération (RAG) pour des projets personnels impliquant du codage, de l'administration système et de petites bases de code. L'auteur soutient que les connaissances industrielles standard sont déjà bien couvertes par les modèles, tandis que des sources de données spécifiques comme les bases de code ou les références d'API sont soit trop petites pour nécessiter un indexage, soit trop grandes pour être gérées efficacement.

Les bibliothèques RFC sont considérées comme verbeuses et inutiles.
Les normes industrielles sont généralement mieux gérées directement par le modèle que par des documents sélectionnés au cas par cas.
Les bases de code personnelles sont souvent trop petites pour tenir dans les fenêtres de contexte et changent trop fréquemment pour un indexage efficace.
La gestion de références d'API entières pour des langages larges comme C# ou Node.js est considérée comme une surcharge excessive.
Le contexte historique n'est jugé pertinent que pour les applications d'entreprise à très grande échelle, pas pour les projets plus petits.

Le post cherche des conseils de la communauté sur le contenu réellement utile à inclure dans les systèmes RAG et comment gérer la maintenance à long terme pour de grands ensembles de données comme la documentation complète de l'API.