llama.cppのリリースb9866は、Step-3.7-Flashなど288エクスパートを持つモデルに対してtopk-moe融合を有効にし、以前は非融合ルーティングチェーンにフォールバックしていました。この変更により、ワープサイズの倍数である288を受け入れるために、適合性チェックに欠落していたテンプレートインスタンス化が追加されました。

  • Step-3.7-Flash IQ4_XSでgfx1151上で測定した結果、浅いコンテキストにおいてデコードスループット(tg128)が+2.4%向上しました。
  • プロンプト処理(pp4096)は変化していません。融合はデコードルーティングにのみ影響するためです。
  • 性能向上は深さとともに減衰し、30kトークンに達すると、ステップはKVキャッシュに対してアテンションバウンドになります。

この最適化により、CUDAハードウェア上での特定のエクスパート混合モデルのデコーディングフェーズにおける推論速度が向上します。