Бенчмарк 13 локальных LLM, запущенных на RX 7900 XT, выявил, что для агентных рабочих процессов с контекстом от 65K до 128K фаза префилла потребляет 94–99% реального времени, делая скорость генерации токенов в значительной степени неважной.

  • Тест использовал сборку llama.cpp 9860 с бэкендом Vulkan для плотных, MoE, гибридных Mamba2 и MLA MoE моделей объемом от 5GB до 18GB.
  • Trinity-Mini (MoE 3B/26B) показала наивысшую скорость префилла в 923 tokens/sec для контекста 131K, тогда как GLM-4.7-Flash упал выше 16K из-за ограничений MLA.
  • Devstral-24B не смог завершить тест 131K, потому что требования к KV cache превысили объем VRAM GPU.

Результаты указывают на то, что оптимизация производительности префилла и управление размером KV cache важнее количества параметров или скорости генерации при работе с длинным контекстом в агентных задачах.