Бенчмарк 13 локальных LLM, запущенных на RX 7900 XT, выявил, что для агентных рабочих процессов с контекстом от 65K до 128K фаза префилла потребляет 94–99% реального времени, делая скорость генерации токенов в значительной степени неважной.
- Тест использовал сборку llama.cpp 9860 с бэкендом Vulkan для плотных, MoE, гибридных Mamba2 и MLA MoE моделей объемом от 5GB до 18GB.
- Trinity-Mini (MoE 3B/26B) показала наивысшую скорость префилла в 923 tokens/sec для контекста 131K, тогда как GLM-4.7-Flash упал выше 16K из-за ограничений MLA.
- Devstral-24B не смог завершить тест 131K, потому что требования к KV cache превысили объем VRAM GPU.
Результаты указывают на то, что оптимизация производительности префилла и управление размером KV cache важнее количества параметров или скорости генерации при работе с длинным контекстом в агентных задачах.