Tim openpangu telah merilis openPangu-2.0-Flash, sebuah model Mixture of Experts (MoE) yang dilatih pada perangkat keras Ascend. Model ini memiliki total 92 miliar parameter dengan 6 miliar parameter yang diaktifkan dan mendukung panjang konteks 512k token.
- Pelatihan menggunakan 34 triliun token pra-pelatihan, diikuti oleh SFT terpadu untuk kemampuan berpikir lambat dan cepat serta pelatihan RL spesialis ganda.
- Peningkatan arsitektur termasuk perhatian efisien yang menggabungkan MLA, DSA, dan SWA dalam rasio lapisan 1:2 untuk menurunkan biaya komputasi dan memori.
- Model ini mengganti jalur residual konvensional dengan desain mHC 4-alur untuk meningkatkan keragaman representasi dan generalisasi.
- Prediksi multi-token menggunakan tiga kepala untuk menyusun tiga token tambahan per langkah guna mempercepat inferensi melalui dekoding spekulatif diri.
- Pelatihan menggunakan pengoptimal Muon untuk mencapai konvergensi yang lebih cepat.
Rilis ini menyediakan opsi sumber terbuka untuk penalaran konteks panjang berkinerja tinggi dengan kecepatan inferensi yang dioptimalkan.