Seorang pengguna mendemonstrasikan menjalankan model Qwen3.6-27 dalam kuantisasi Q8_0 dengan hingga 115.000 token konteks pada sistem dengan VRAM 32GB. Dengan bereksperimen dengan tingkat kuantisasi cache kunci-nilai (KV) yang berbeda alongside bobot model, mereka mencapai inferensi stabil menggunakan llama-server dan draft-mtp speculative decoding.
- Opsi 1 menggunakan cache KV Q8_0 untuk mendukung konteks 95K, mencapai kecepatan token agregat 141.6 tok/s pada tugas generasi kode.
- Opsi 2 mengurangi cache KV ke Q5_1 untuk memperpanjang konteks hingga 105K token, mempertahankan kinerja serupa dengan laju 142.0 tok/s.
- Opsi 3 lebih menurunkan cache KV ke Q4_0 untuk mencapai konteks 115K, menghasilkan tingkat penerimaan agregat 0.6969 dan 138.7 tok/s untuk generasi kode.
Konfigurasi ini memungkinkan pengguna mendorong batas konteks secara signifikan melampaui batasan tipikal pada perangkat keras kelas konsumen dengan menyeimbangkan presisi bobot model dengan kuantisasi cache KV.