Um benchmark de 13 LLMs locais rodando em uma RX 7900 XT revela que para fluxos de trabalho agênticos com contextos entre 65K e 128K, a fase de prefill consome 94–99% do tempo real, tornando a velocidade de geração de tokens em grande parte irrelevante.

  • O teste usou o build 9860 do llama.cpp com backend Vulkan em modelos densos, MoE, híbridos Mamba2 e MLA MoE variando de 5GB a 18GB.
  • Trinity-Mini (MoE 3B/26B) alcançou a maior velocidade de prefill em 923 tokens/sec para contexto de 131K, enquanto o GLM-4.7-Flash falhou acima de 16K devido às restrições do MLA.
  • Devstral-24B não conseguiu completar o teste de 131K porque seus requisitos de KV cache excederam a capacidade de VRAM da GPU.

As descobertas sugerem que otimizar o desempenho do prefill e gerenciar o tamanho do KV cache são mais críticos do que a contagem de parâmetros ou a velocidade de geração ao lidar com tarefas agênticas de contexto longo.