用户调查 RTX 3060 上 Qwen3.6 27B 使用 RAM 卸载时的瓶颈

一位 Reddit 用户报告称，在配备 12GB VRAM 的 RTX 3060 上使用 RAM 卸载运行 Qwen3.6 27B 模型的 Q4 量化版本，指出推理期间 DRAM 带宽仅为约 30GB/s。

该用户在 18K token 上下文下实现了每秒 3.12 个 token 的吞吐量，质疑瓶颈是出在 LM Studio 的实现还是其 CPU 硬件上。
使用较小的提示词、4 个 CPU 线程、Q8 KV 缓存和 37 层 GPU 卸载进行测试，将吞吐量提高到了每秒 4.95 个 token，同时保持 30-35GB/s 的带宽。