一位用户分享了在配备RTX 5090、AMD 9800X3D和64GB内存的系统上使用llama.cpp运行Qwen3.6 27B模型的详细性能指标。
- 调优包括q8 KV cache、192k上下文、MTP draft=10、spec-draft-p-min=0.5以及batch/ubatch 512。
- 对混合智能体编程会话中的6,454个样本的分析显示,平均吞吐量为140.7 tok/s,中位数为134.9 tok/s。
- 峰值性能达到120-130 tok/s区间,长尾延伸至233 tok/s。
- 作者指出,llama.cpp中的混合注意力/SWA缓存处理对该模型尚不完善,导致提示词重新处理的警告。
该帖子强调,平均数值可能掩盖性能波动,提供的是速度的真实分布而非仅是一个 headline 数字。