O que há no seu RAG?

Um usuário do Reddit questiona a utilidade prática da Geração Aumentada por Recuperação (RAG) para projetos pessoais envolvendo codificação, trabalho de sysadmin e pequenas bases de código. O autor argumenta que o conhecimento padrão da indústria já é bem coberto pelos modelos, enquanto fontes de dados específicas como bases de código ou referências de API são muito pequenas para exigir indexação ou grandes demais para serem gerenciadas eficientemente.

Bibliotecas RFC são consideradas verbosas e desnecessárias.
Padrões da indústria são tipicamente melhor tratados diretamente pelo modelo do que por documentos selecionados.
Bases de código pessoais são frequentemente pequenas demais para caber nas janelas de contexto e mudam com frequência demais para uma indexação eficaz.
Gerenciar referências completas de API para linguagens grandes como C# ou Node.js é visto como um excesso de carga.
O contexto histórico é considerado relevante apenas para aplicações empresariais em grande escala, não para projetos menores.

A postagem busca conselhos da comunidade sobre qual conteúdo é realmente útil incluir em sistemas RAG e como gerenciar a manutenção de longo prazo para grandes conjuntos de dados como documentação completa de API.