一名用户展示了在配备32GB VRAM的系统上使用Q8_0量化运行Qwen3.6-27模型,上下文长达115,000个token。通过结合模型权重与不同的键值(KV)缓存量化级别进行实验,他们使用llama-server和draft-mtp推测解码实现了稳定的推理。

  • 选项1使用Q8_0 KV缓存支持95K上下文,在代码生成任务中达到141.6 tok/s的综合token速度。
  • 选项2将KV缓存降低至Q5_1以将上下文扩展至105K token,保持相似性能,速率为142.0 tok/s。
  • 选项3进一步将KV缓存降至Q4_0以达到115K上下文,导致代码生成的综合接受率为0.6969,速度为138.7 tok/s。

该配置允许用户通过平衡模型权重精度与KV缓存量化,在消费级硬件上显著突破典型的上下文限制。