Un benchmark de 13 LLM locaux exécutés sur une RX 7900 XT révèle que pour les workflows agentic avec des contextes entre 65K et 128K, la phase de préremplissage consomme 94–99 % du temps réel, rendant la vitesse de génération de tokens largement irrelevante.
- Le test a utilisé la build 9860 de llama.cpp avec le backend Vulkan sur des modèles denses, MoE, hybrides Mamba2 et MLA MoE allant de 5 Go à 18 Go.
- Trinity-Mini (MoE 3B/26B) a atteint la vitesse de préremplissage la plus élevée à 923 tok/s pour un contexte de 131K, tandis que GLM-4.7-Flash a planté au-delà de 16K en raison des contraintes MLA.
- Devstral-24B n'a pas pu terminer le test de 131K car ses exigences de cache KV dépassaient la capacité VRAM du GPU.
Ces résultats suggèrent que l'optimisation des performances de préremplissage et la gestion de la taille du cache KV sont plus critiques que le nombre de paramètres ou la vitesse de génération lors du traitement de tâches agentic à long contexte.