在RX 7900 XT上运行的13个本地LLM的基准测试显示,对于上下文在65K到128K之间的智能体工作流,预填充阶段消耗了94–99%的挂钟时间,使得令牌生成速度在很大程度上无关紧要。

  • 测试使用了带有Vulkan后端的llama.cpp build 9860,涵盖密集、MoE、Mamba2混合和MLA MoE模型,大小从5GB到18GB不等。
  • Trinity-Mini (MoE 3B/26B)在131K上下文下实现了最高的预填充速度,达到923 tok/s,而GLM-4.7-Flash由于MLA限制在超过16K时崩溃。
  • Devstral-24B无法完成131K测试,因为其KV缓存需求超过了GPU的VRAM容量。

研究结果表明,在处理长上下文智能体任务时,优化预填充性能和管理KV缓存大小比参数量或生成速度更为关键。