一位 Reddit 用户质疑检索增强生成(RAG)在涉及编码、系统管理工作和小型代码库的个人项目中的实际效用。作者认为,行业标准知识已被模型很好地覆盖,而特定的数据来源(如代码库或 API 参考)要么太小而不需要索引,要么太大而无法有效管理。

  • RFC 库被认为过于冗长且没有必要。
  • 行业标准通常由模型直接处理得更好,而不是通过挑选的文档。
  • 个人代码库通常太小,无法放入上下文窗口,且变化过于频繁,难以有效索引。
  • 管理 C# 或 Node.js 等大型语言的完整 API 参考被视为过度的开销。
  • 历史上下文被认为仅对具有巨大规模的企业应用程序相关,而非较小的项目。

该帖子寻求社区建议,了解哪些内容实际上适合包含在 RAG 系统中,以及如何管理像完整 API 文档这样的大型数据集的长期维护。