openPangu ने 512k संदर्भ के साथ 92B MoE मॉडल openPangu-2.0-Flash जारी किया

openpangu टीम ने Ascend हार्डवेयर पर प्रशिक्षित एक मिक्स्चर ऑफ एक्सपर्ट्स (MoE) मॉडल openPangu-2.0-Flash जारी किया है। मॉडल में 92 अरब कुल पैरामीटर और 6 अरब सक्रिय पैरामीटर हैं और यह 512k टोकन की संदर्भ लंबाई का समर्थन करता है।

प्रशिक्षण ने 34 ट्रिलियन प्रीट्रेनिंग टोकन का उपयोग किया, जिसके बाद धीमे और तेज सोचने की क्षमताओं के लिए एकीकृत SFT और कई विशेषज्ञ RL प्रशिक्षण हुआ।
आर्किटेक्चर में सुधार में कुशल ध्यान शामिल है जो MLA, DSA और SWA को 1:2 परत अनुपात में जोड़कर कम्प्यूटेशन और मेमोरी लागत को कम करता है।
मॉडल प्रतिनिधित्व विविधता और सामान्यीकरण को बेहतर बनाने के लिए पारंपरिक अवशेष मार्ग की जगह 4-स्ट्रीम mHC डिज़ाइन से बदलता है।
बहु-टोकन पूर्वानुमान स्व-स्पेकुलेटिव डिकोडिंग के माध्यम से तेज इनफरेंस के लिए प्रति चरण तीन अतिरिक्त टोकन तैयार करने के लिए तीन हेड का उपयोग करता है।
प्रशिक्षण तेज अभिसरण प्राप्त करने के लिए Muon ऑप्टिमाइज़र का उपयोग करता है।

यह रिलीज़ उच्च-प्रदर्शन लंबे संदर्भ तर्क के लिए एक ओपन-सोर्स विकल्प प्रदान करती है जिसमें अनुकूलित इनफरेंस गति है।