media r/LocalLLaMA · 2 小时前 · open_models

Qwen3.6 27B在RTX 5090上配合调优的llama.cpp设置实现140 tok/s的平均速度

译自 English → 中文

一位用户分享了在配备RTX 5090、AMD 9800X3D和64GB内存的系统上使用llama.cpp运行Qwen3.6 27B模型的详细性能指标。

调优包括q8 KV cache、192k上下文、MTP draft=10、spec-draft-p-min=0.5以及batch/ubatch 512。
对混合智能体编程会话中的6,454个样本的分析显示，平均吞吐量为140.7 tok/s，中位数为134.9 tok/s。
峰值性能达到120-130 tok/s区间，长尾延伸至233 tok/s。
作者指出，llama.cpp中的混合注意力/SWA缓存处理对该模型尚不完善，导致提示词重新处理的警告。

该帖子强调，平均数值可能掩盖性能波动，提供的是速度的真实分布而非仅是一个 headline 数字。

重要性 1/3 r/LocalLLaMA Hardware & chips Inference efficiency