يكشف مقياس لـ 13 نموذج لغوي محلي يعمل على RX 7900 XT أنه بالنسبة لسير العمل الوكيلية مع سياقات تتراوح بين 65K و 128K، تستهلك مرحلة Pre-fill ما بين 94–99% من الوقت الفعلي، مما يجعل سرعة توليد الرموز غير ذات صلة إلى حد كبير.

  • استخدم الاختبار بناء llama.cpp رقم 9860 مع الخلفية Vulkan عبر نماذج Dense و MoE و Mamba2 hybrid و MLA MoE تتراوح من 5GB إلى 18GB.
  • حققت Trinity-Mini (MoE 3B/26B) أعلى سرعة Pre-fill عند 923 tok/s لسياق 131K، بينما تعطل GLM-4.7-Flash فوق 16K بسبب قيود MLA.
  • لم يتمكن Devstral-24B من إكمال اختبار 131K لأن متطلبات ذاكرة التخزين المؤقت KV تجاوزت سعة VRAM لوحدة معالجة الرسومات.

تشير النتائج إلى أن تحسين أداء Pre-fill وإدارة حجم ذاكرة التخزين المؤقت KV أكثر أهمية من عدد المعلمات أو سرعة التوليد عند التعامل مع مهام وكيلية ذات سياق طويل.