Apa yang ada di RAG Anda?

Seorang pengguna Reddit mempertanyakan utilitas praktis dari Retrieval-Augmented Generation (RAG) untuk proyek pribadi yang melibatkan pemrograman, pekerjaan sysadmin, dan basis kode kecil. Penulis berargumen bahwa pengetahuan industri standar sudah tercakup dengan baik oleh model, sementara sumber data spesifik seperti basis kode atau referensi API terlalu kecil sehingga tidak memerlukan pengindeksan atau terlalu besar untuk dikelola secara efisien.

Pustaka RFC dianggap bertele-tele dan tidak perlu.
Standar industri biasanya ditangani lebih baik langsung oleh model daripada oleh dokumen yang dipilih-cincang.
Basis kode pribadi sering kali terlalu kecil untuk muat dalam jendela konteks dan berubah terlalu sering untuk pengindeksan yang efektif.
Mengelola referensi API lengkap untuk bahasa besar seperti C# atau Node.js dianggap sebagai overhead yang berlebihan.
Konteks historis dianggap relevan hanya untuk aplikasi perusahaan dengan skala masif, bukan proyek yang lebih kecil.

Postingan ini mencari saran komunitas tentang konten apa yang sebenarnya berguna untuk dimasukkan ke dalam sistem RAG dan bagaimana mengelola pemeliharaan jangka panjang untuk dataset besar seperti dokumentasi API lengkap.