llama.cpp b9866: 288エクスパート向けのCUDA topk-moe融合

llama.cppのリリースb9866は、Step-3.7-Flashなど288エクスパートを持つモデルに対してtopk-moe融合を有効にし、以前は非融合ルーティングチェーンにフォールバックしていました。この変更により、ワープサイズの倍数である288を受け入れるために、適合性チェックに欠落していたテンプレートインスタンス化が追加されました。

Step-3.7-Flash IQ4_XSでgfx1151上で測定した結果、浅いコンテキストにおいてデコードスループット（tg128）が+2.4%向上しました。
プロンプト処理（pp4096）は変化していません。融合はデコードルーティングにのみ影響するためです。
性能向上は深さとともに減衰し、30kトークンに達すると、ステップはKVキャッシュに対してアテンションバウンドになります。

この最適化により、CUDAハードウェア上での特定のエクスパート混合モデルのデコーディングフェーズにおける推論速度が向上します。