¿Qué hay en tu RAG?

Un usuario de Reddit cuestiona la utilidad práctica de la Generación Aumentada por Recuperación (RAG) para proyectos personales que implican programación, trabajo de sysadmin y pequeñas bases de código. El autor argumenta que el conocimiento estándar de la industria ya está bien cubierto por los modelos, mientras que las fuentes de datos específicas como bases de código o referencias de API son demasiado pequeñas para requerir indexación o demasiado grandes para gestionarse eficientemente.

Las bibliotecas RFC se consideran verbosas e innecesarias.
Los estándares de la industria suelen manejarse mejor directamente por el modelo que por documentos seleccionados a dedo.
Las bases de código personales a menudo son demasiado pequeñas para caber en las ventanas de contexto y cambian con demasiada frecuencia para una indexación efectiva.
Gestionar referencias completas de API para lenguajes grandes como C# o Node.js se ve como una carga excesiva.
El contexto histórico se considera relevante solo para aplicaciones empresariales a gran escala, no para proyectos más pequeños.

La publicación busca consejos de la comunidad sobre qué contenido es realmente útil incluir en los sistemas RAG y cómo gestionar el mantenimiento a largo plazo de grandes conjuntos de datos como la documentación completa de API.