基准测试发现，在65K+上下文下，预填充主导智能体工作负载

在RX 7900 XT上运行的13个本地LLM的基准测试显示，对于上下文在65K到128K之间的智能体工作流，预填充阶段消耗了94–99%的挂钟时间，使得令牌生成速度在很大程度上无关紧要。

测试使用了带有Vulkan后端的llama.cpp build 9860，涵盖密集、MoE、Mamba2混合和MLA MoE模型，大小从5GB到18GB不等。
Trinity-Mini (MoE 3B/26B)在131K上下文下实现了最高的预填充速度，达到923 tok/s，而GLM-4.7-Flash由于MLA限制在超过16K时崩溃。
Devstral-24B无法完成131K测试，因为其KV缓存需求超过了GPU的VRAM容量。

研究结果表明，在处理长上下文智能体任务时，优化预填充性能和管理KV缓存大小比参数量或生成速度更为关键。