openPangu merilis openPangu-2.0-Flash, model MoE 92B dengan konteks 512k

Tim openpangu telah merilis openPangu-2.0-Flash, sebuah model Mixture of Experts (MoE) yang dilatih pada perangkat keras Ascend. Model ini memiliki total 92 miliar parameter dengan 6 miliar parameter yang diaktifkan dan mendukung panjang konteks 512k token.

Pelatihan menggunakan 34 triliun token pra-pelatihan, diikuti oleh SFT terpadu untuk kemampuan berpikir lambat dan cepat serta pelatihan RL spesialis ganda.
Peningkatan arsitektur termasuk perhatian efisien yang menggabungkan MLA, DSA, dan SWA dalam rasio lapisan 1:2 untuk menurunkan biaya komputasi dan memori.
Model ini mengganti jalur residual konvensional dengan desain mHC 4-alur untuk meningkatkan keragaman representasi dan generalisasi.
Prediksi multi-token menggunakan tiga kepala untuk menyusun tiga token tambahan per langkah guna mempercepat inferensi melalui dekoding spekulatif diri.
Pelatihan menggunakan pengoptimal Muon untuk mencapai konvergensi yang lebih cepat.

Rilis ini menyediakan opsi sumber terbuka untuk penalaran konteks panjang berkinerja tinggi dengan kecepatan inferensi yang dioptimalkan.