llama.cpp b9866: 288 विशेषज्ञों के लिए CUDA topk-moe फ्यूजन

llama.cpp रिलीज b9866, Step-3.7-Flash जैसे 288 विशेषज्ञों वाले मॉडल्स के लिए topk-moe फ्यूजन सक्षम करता है, जो पहले एक अफ्यूज़्ड राउटिंग चेन पर वापस आ जाते थे। इस बदलाव ने योग्यता जाँच में 288 को स्वीकार करने के लिए गायब टेम्पलेट इंस्टेंशिएशन जोड़ा है, क्योंकि यह warp साइज का गुणांक है।

gfx1151 पर Step-3.7-Flash IQ4_XS के साथ मापा गया: शallow संदर्भ में डिकोड थ्रूपुट (tg128) +2.4% बढ़ा।
प्रॉम्प्ट प्रोसेसिंग (pp4096) अपरिवर्तित रहती है क्योंकि फ्यूजन केवल डिकोड राउटिंग को प्रभावित करता है।
गहराई के साथ प्रदर्शन लाभ कम हो जाता है; 30k टोकन तक, कदम KV कैश पर ध्यान-बाध्य (attention-bound) बन जाते हैं।

यह अनुकूलन डिकोडिंग चरण के दौरान CUDA हार्डवेयर पर विशिष्ट मिक्स्चर-ऑफ़-एक्सपर्ट्स मॉडल्स के लिए इनफरेंस गति में सुधार करता है।