ベンチマークにより、65K以上のコンテキストでアジェンティックワークロードにおいてプリフィルが支配的であることが判明

RX 7900 XT上で動作する13種類のローカルLLMのベンチマークにより、65Kから128Kのコンテキストを持つアジェンティックワークフローでは、プリフィルフェーズがウォールクロック時間の94〜99%を消費し、トークン生成速度はほぼ無関係であることが示された。

テストにはllama.cppビルド9860とVulkanバックエンドが使用され、5GBから18GBの範囲にある密集型、MoE、Mamba2ハイブリッド、MLA MoEモデルが含まれた。
Trinity-Mini (MoE 3B/26B) は131Kコンテキストで923 tok/sの最高プリフィル速度を達成した一方、GLM-4.7-FlashはMLAの制約により16K以上でクラッシュした。
Devstral-24BはKVキャッシュ要件がGPUのVRAM容量を超えたため、131Kテストを完了できなかった。

この結果は、長いコンテキストのアジェンティックタスクを処理する際、パラメータ数や生成速度よりもプリフィルパフォーマンスの最適化とKVキャッシュサイズの管理の方が重要であることを示唆している。