Что внутри вашего RAG?

Пользователь Reddit ставит под сомнение практическую пользу Retrieval-Augmented Generation (RAG) для личных проектов, связанных с программированием, системным администрированием и небольшими кодовыми базами. Автор утверждает, что стандартные отраслевые знания уже хорошо покрыты моделями, в то время как специфические источники данных, такие как кодовые базы или справочники по API, либо слишком малы для индексации, либо слишком велики для эффективного управления.

Библиотеки RFC считаются избыточными и ненужными.
Отраслевые стандарты обычно лучше обрабатываются непосредственно моделью, чем отобранными документами.
Личные кодовые базы часто слишком малы для размещения в контекстном окне и слишком часто меняются для эффективной индексации.
Управление полными справочниками по API для таких языков, как C# или Node.js, рассматривается как чрезмерная нагрузка.
Исторический контекст считается релевантным только для корпоративных приложений с огромным масштабом, а не для небольших проектов.

Пост ищет советы сообщества о том, какой контент действительно полезен для включения в системы RAG и как управлять долгосрочным обслуживанием больших наборов данных, таких как полная документация по API.