Pengguna menjalankan Qwen3.6-27 Q8 dengan konteks 115K pada VRAM 32GB

Seorang pengguna mendemonstrasikan menjalankan model Qwen3.6-27 dalam kuantisasi Q8_0 dengan hingga 115.000 token konteks pada sistem dengan VRAM 32GB. Dengan bereksperimen dengan tingkat kuantisasi cache kunci-nilai (KV) yang berbeda alongside bobot model, mereka mencapai inferensi stabil menggunakan llama-server dan draft-mtp speculative decoding.

Opsi 1 menggunakan cache KV Q8_0 untuk mendukung konteks 95K, mencapai kecepatan token agregat 141.6 tok/s pada tugas generasi kode.
Opsi 2 mengurangi cache KV ke Q5_1 untuk memperpanjang konteks hingga 105K token, mempertahankan kinerja serupa dengan laju 142.0 tok/s.
Opsi 3 lebih menurunkan cache KV ke Q4_0 untuk mencapai konteks 115K, menghasilkan tingkat penerimaan agregat 0.6969 dan 138.7 tok/s untuk generasi kode.

Konfigurasi ini memungkinkan pengguna mendorong batas konteks secara signifikan melampaui batasan tipikal pada perangkat keras kelas konsumen dengan menyeimbangkan presisi bobot model dengan kuantisasi cache KV.