一位 Reddit 用户报告称,在配备 12GB VRAM 的 RTX 3060 上使用 RAM 卸载运行 Qwen3.6 27B 模型的 Q4 量化版本,指出推理期间 DRAM 带宽仅为约 30GB/s。
- 该用户在 18K token 上下文下实现了每秒 3.12 个 token 的吞吐量,质疑瓶颈是出在 LM Studio 的实现还是其 CPU 硬件上。
- 使用较小的提示词、4 个 CPU 线程、Q8 KV 缓存和 37 层 GPU 卸载进行测试,将吞吐量提高到了每秒 4.95 个 token,同时保持 30-35GB/s 的带宽。