Seorang pengguna Reddit melaporkan menjalankan model Qwen3.6 27B dalam kuantisasi Q4 menggunakan offload RAM pada RTX 3060 dengan VRAM 12GB, mencatat bandwidth DRAM hanya sekitar 30GB/s selama inferensi.

  • Pengguna mencapai throughput sebesar 3,12 token per detik dengan konteks 18K token, mempertanyakan apakah hambatan terletak pada implementasi LM Studio atau perangkat keras CPU mereka.
  • Pengujian dengan prompt yang lebih kecil dan 6 thread CPU menggunakan cache KV Q8 dan 37 layer offload GPU meningkatkan throughput menjadi 4,95 token per detik sambil mempertahankan bandwidth 30-35GB/s.