用户在32GB显存上以115K上下文运行Qwen3.6-27 Q8

一名用户展示了在配备32GB VRAM的系统上使用Q8_0量化运行Qwen3.6-27模型，上下文长达115,000个token。通过结合模型权重与不同的键值（KV）缓存量化级别进行实验，他们使用llama-server和draft-mtp推测解码实现了稳定的推理。

该配置允许用户通过平衡模型权重精度与KV缓存量化，在消费级硬件上显著突破典型的上下文限制。