openpangu टीम ने Ascend हार्डवेयर पर प्रशिक्षित एक मिक्स्चर ऑफ एक्सपर्ट्स (MoE) मॉडल openPangu-2.0-Flash जारी किया है। मॉडल में 92 अरब कुल पैरामीटर और 6 अरब सक्रिय पैरामीटर हैं और यह 512k टोकन की संदर्भ लंबाई का समर्थन करता है।
- प्रशिक्षण ने 34 ट्रिलियन प्रीट्रेनिंग टोकन का उपयोग किया, जिसके बाद धीमे और तेज सोचने की क्षमताओं के लिए एकीकृत SFT और कई विशेषज्ञ RL प्रशिक्षण हुआ।
- आर्किटेक्चर में सुधार में कुशल ध्यान शामिल है जो MLA, DSA और SWA को 1:2 परत अनुपात में जोड़कर कम्प्यूटेशन और मेमोरी लागत को कम करता है।
- मॉडल प्रतिनिधित्व विविधता और सामान्यीकरण को बेहतर बनाने के लिए पारंपरिक अवशेष मार्ग की जगह 4-स्ट्रीम mHC डिज़ाइन से बदलता है।
- बहु-टोकन पूर्वानुमान स्व-स्पेकुलेटिव डिकोडिंग के माध्यम से तेज इनफरेंस के लिए प्रति चरण तीन अतिरिक्त टोकन तैयार करने के लिए तीन हेड का उपयोग करता है।
- प्रशिक्षण तेज अभिसरण प्राप्त करने के लिए Muon ऑप्टिमाइज़र का उपयोग करता है।
यह रिलीज़ उच्च-प्रदर्शन लंबे संदर्भ तर्क के लिए एक ओपन-सोर्स विकल्प प्रदान करती है जिसमें अनुकूलित इनफरेंस गति है।