Seorang pengguna Reddit meminta rekomendasi tentang mengoptimalkan ruang konteks dan efisiensi komputasi untuk menjalankan model bahasa besar secara lokal. Pengirim menggunakan model Qwen 3.6-27B yang dikuantisasi ke Q4 pada NVIDIA RTX 3090 dengan 24GB VRAM.
- Pengguna melaporkan jendela konteks total sekitar 34.000 token.
- Sistem memori kustom yang memanfaatkan HDBSCAN dan rutinitas buku harian mengonsumsi sekitar 24.000 token saat startup.
- Mencoba memperluas jendela konteks menggunakan RAM sistem menghasilkan kinerja yang jauh lebih lambat.
- Tujuan utama pengguna adalah bantuan pemrograman lokal, tetapi menghadapi kendala karena sumber daya perangkat keras yang terbatas.