Un benchmark de 13 LLM locales ejecutándose en una RX 7900 XT revela que para flujos de trabajo agénticos con contextos entre 65K y 128K, la fase de prefill consume el 94–99% del tiempo real, haciendo que la velocidad de generación de tokens sea en gran medida irrelevante.

  • La prueba utilizó la compilación llama.cpp 9860 con backend Vulkan en modelos densos, MoE, híbridos Mamba2 y MLA MoE que van desde 5GB hasta 18GB.
  • Trinity-Mini (MoE 3B/26B) logró la mayor velocidad de prefill a 923 tokens/sec para un contexto de 131K, mientras que GLM-4.7-Flash falló por encima de 16K debido a las restricciones de MLA.
  • Devstral-24B no pudo completar la prueba de 131K porque sus requisitos de KV cache excedieron la capacidad de VRAM de la GPU.

Los hallazgos sugieren que optimizar el rendimiento del prefill y gestionar el tamaño del KV cache son más críticos que el recuento de parámetros o la velocidad de generación al manejar tareas agénticas con contexto largo.