Pengguna mencari saran untuk memaksimalkan jendela konteks untuk pemrograman LLM lokal

Seorang pengguna Reddit meminta rekomendasi tentang mengoptimalkan ruang konteks dan efisiensi komputasi untuk menjalankan model bahasa besar secara lokal. Pengirim menggunakan model Qwen 3.6-27B yang dikuantisasi ke Q4 pada NVIDIA RTX 3090 dengan 24GB VRAM.

Pengguna melaporkan jendela konteks total sekitar 34.000 token.
Sistem memori kustom yang memanfaatkan HDBSCAN dan rutinitas buku harian mengonsumsi sekitar 24.000 token saat startup.
Mencoba memperluas jendela konteks menggunakan RAM sistem menghasilkan kinerja yang jauh lebih lambat.
Tujuan utama pengguna adalah bantuan pemrograman lokal, tetapi menghadapi kendala karena sumber daya perangkat keras yang terbatas.