Pengguna menyelidiki hambatan offload RAM dengan Qwen3.6 27B pada RTX 3060

Seorang pengguna Reddit melaporkan menjalankan model Qwen3.6 27B dalam kuantisasi Q4 menggunakan offload RAM pada RTX 3060 dengan VRAM 12GB, mencatat bandwidth DRAM hanya sekitar 30GB/s selama inferensi.

Pengguna mencapai throughput sebesar 3,12 token per detik dengan konteks 18K token, mempertanyakan apakah hambatan terletak pada implementasi LM Studio atau perangkat keras CPU mereka.
Pengujian dengan prompt yang lebih kecil dan 6 thread CPU menggunakan cache KV Q8 dan 37 layer offload GPU meningkatkan throughput menjadi 4,95 token per detik sambil mempertahankan bandwidth 30-35GB/s.