llama.cpp b9876 ने MoE मॉडल पर टेन्सर-समानांतर + -ncmoe क्रैश ठीक किया

llama.cpp प्रोजेक्ट ने संस्करण b9876 जारी किया, जो टेन्सर समानांतरता को CPU-ऑफलोडेड मिक्चर ऑफ एक्सपर्ट्स (MoE) विशेषज्ञों के साथ संयुक्त रूप से उपयोग करते समय एक महत्वपूर्ण क्रैश को संबोधित करता है।

ggml-backend-meta.cpp में GGML_ASSERT विफलता के कारण MoE मॉडल पर वार्म-अप के दौरान एक अबार्ट को ठीक किया।
MoE राउटर आउटपुट के लिए प्रतिबिंबित गैर-संतत टेन्सरों द्वारा ट्रिगर किए गए एसेर्शन त्रुटि की समस्या को हल किया।
get_tensor और set_tensor दोनों संचालनों में प्रतिबिंबित मामले की अनुमति देने के लिए कंटिग्यूइटी एसेर्शन के ऊपर split-state लुकअप को स्थानांतरित किया।
CPU, Vulkan, ROCm, CUDA, OpenVINO, SYCL, और HIP बैकएंड्स के लिए macOS (Apple Silicon और Intel), Linux, Android, Windows, और openEuler के लिए बाइनरी प्रदान करता है।

यह ठीक करने से उपयोगकर्ताओं को बैकएंड एसेर्शन विफलताओं के बिना टेन्सर समानांतरता और CPU-ऑफलोडेड विशेषज्ञों के साथ MoE मॉडल को सफलतापूर्वक चलाने की अनुमति मिलती है।