llama.cpp b9866: دمج topk-moe لـ CUDA مع 288 خبير

يتيح إصدار llama.cpp b9866 دمج topk-moe للنماذج ذات الـ 288 خبير، مثل Step-3.7-Flash، التي كانت سابقاً تعود إلى سلسلة توجيه غير مدمجة. يضيف هذا التغيير التمثيل القياسي المفقود لقبول القيمة 288 في فحص الأهلية، لأنها مضاعف لحجم Warp.

تم القياس على gfx1151 باستخدام Step-3.7-Flash IQ4_XS، زاد معدل فك التشفير (tg128) بنسبة +2.4% في السياق الضحل.
يبقى معالجة المطالبات (pp4096) دون تغيير لأن الدمج يؤثر فقط على توجيه فك التشفير.
يتلاشى مكسب الأداء مع العمق؛ عند 30 ألف رمز، تصبح الخطوات مقيدة بالانتباه عبر ذاكرة التخزين المؤقت KV.

يحسن هذا التحسين سرعة الاستدلال للنماذج المحددة من نوع Mixture-of-Experts على عتاد CUDA أثناء مرحلة فك التشفير.