RX 7900 XT上で動作する13種類のローカルLLMのベンチマークにより、65Kから128Kのコンテキストを持つアジェンティックワークフローでは、プリフィルフェーズがウォールクロック時間の94〜99%を消費し、トークン生成速度はほぼ無関係であることが示された。

  • テストにはllama.cppビルド9860とVulkanバックエンドが使用され、5GBから18GBの範囲にある密集型、MoE、Mamba2ハイブリッド、MLA MoEモデルが含まれた。
  • Trinity-Mini (MoE 3B/26B) は131Kコンテキストで923 tok/sの最高プリフィル速度を達成した一方、GLM-4.7-FlashはMLAの制約により16K以上でクラッシュした。
  • Devstral-24BはKVキャッシュ要件がGPUのVRAM容量を超えたため、131Kテストを完了できなかった。

この結果は、長いコンテキストのアジェンティックタスクを処理する際、パラメータ数や生成速度よりもプリフィルパフォーマンスの最適化とKVキャッシュサイズの管理の方が重要であることを示唆している。