openPangu تطلق openPangu-2.0-Flash، نموذج MoE بحجم 92B مع سياق 512k

أطلقت فريق openpangu نموذج openPangu-2.0-Flash، وهو نموذج Mixture of Experts (MoE) تم تدريبه على عتاد Ascend. يتميز النموذج بـ 92 مليار معامل إجمالي مع 6 مليارات معامل مُفعّل ويدعم طول سياق يبلغ 512k رمزًا.

استخدم التدريب 34 تريليون رمز للتدريب المسبق، تليها SFT موحّد لقدرات التفكير البطيء والسريع وتدريب RL متعدد للمتخصصين.
تشمل تحسينات البنية انتباهًا فعالًا يجمع بين MLA وDSA وSWA بنسبة طبقات 1:2 لتقليل تكاليف الحساب والذاكرة.
يستبدل النموذج المسار المتبقي التقليدي بتصميم mHC رباعي التدفق لتحسين تنوع التمثيل والتعميم.
يستخدم التنبؤ متعدد الرموز ثلاثة رؤوس لصياغة ثلاثة رموز إضافية لكل خطوة لتسريع الاستدلال عبر فك التشفير التخميني الذاتي.
يستخدم التدريب مُحسّن Muon لتحقيق تقارب أسرع.

يوفر هذا الإصدار خيارًا مفتوح المصدر للاستدلال عالي الأداء بسياق طويل مع سرعة استدلال محسّنة.