llama.cpp b9866 版本为拥有288个专家(如 Step-3.7-Flash)的模型启用了 topk-moe 融合,此前这些模型会回退到未融合的路由链。此更改添加了缺失的模板实例化以在资格检查中接受288,因为它是 warp 大小的倍数。

  • 在 gfx1151 上使用 Step-3.7-Flash IQ4_XS 测量:浅层上下文下的解码吞吐量(tg128)增加了 +2.4%。
  • 提示处理(pp4096)保持不变,因为融合仅影响解码路由。
  • 性能增益随深度增加而减弱;到 30k token 时,步骤受 KV 缓存中的注意力机制限制。

此优化提高了 CUDA 硬件上特定混合专家(MoE)模型在解码阶段的推理速度。