يظهر المقياس أن مرحلة Pre-fill تهيمن على أعباء العمل الوكيلية عند سياق يتجاوز 65K

يكشف مقياس لـ 13 نموذج لغوي محلي يعمل على RX 7900 XT أنه بالنسبة لسير العمل الوكيلية مع سياقات تتراوح بين 65K و 128K، تستهلك مرحلة Pre-fill ما بين 94–99% من الوقت الفعلي، مما يجعل سرعة توليد الرموز غير ذات صلة إلى حد كبير.

استخدم الاختبار بناء llama.cpp رقم 9860 مع الخلفية Vulkan عبر نماذج Dense و MoE و Mamba2 hybrid و MLA MoE تتراوح من 5GB إلى 18GB.
حققت Trinity-Mini (MoE 3B/26B) أعلى سرعة Pre-fill عند 923 tok/s لسياق 131K، بينما تعطل GLM-4.7-Flash فوق 16K بسبب قيود MLA.
لم يتمكن Devstral-24B من إكمال اختبار 131K لأن متطلبات ذاكرة التخزين المؤقت KV تجاوزت سعة VRAM لوحدة معالجة الرسومات.

تشير النتائج إلى أن تحسين أداء Pre-fill وإدارة حجم ذاكرة التخزين المؤقت KV أكثر أهمية من عدد المعلمات أو سرعة التوليد عند التعامل مع مهام وكيلية ذات سياق طويل.