يتيح إصدار llama.cpp b9866 دمج topk-moe للنماذج ذات الـ 288 خبير، مثل Step-3.7-Flash، التي كانت سابقاً تعود إلى سلسلة توجيه غير مدمجة. يضيف هذا التغيير التمثيل القياسي المفقود لقبول القيمة 288 في فحص الأهلية، لأنها مضاعف لحجم Warp.
- تم القياس على gfx1151 باستخدام Step-3.7-Flash IQ4_XS، زاد معدل فك التشفير (tg128) بنسبة +2.4% في السياق الضحل.
- يبقى معالجة المطالبات (pp4096) دون تغيير لأن الدمج يؤثر فقط على توجيه فك التشفير.
- يتلاشى مكسب الأداء مع العمق؛ عند 30 ألف رمز، تصبح الخطوات مقيدة بالانتباه عبر ذاكرة التخزين المؤقت KV.
يحسن هذا التحسين سرعة الاستدلال للنماذج المحددة من نوع Mixture-of-Experts على عتاد CUDA أثناء مرحلة فك التشفير.