openPangu lance openPangu-2.0-Flash, un modèle MoE de 92B avec un contexte de 512k

L'équipe openpangu a publié openPangu-2.0-Flash, un modèle Mixture of Experts (MoE) entraîné sur du matériel Ascend. Le modèle dispose de 92 milliards de paramètres au total avec 6 milliards de paramètres activés et prend en charge une longueur de contexte de 512k tokens.

L'entraînement a utilisé 34 billions de tokens de pré-entraînement, suivis d'un SFT unifié pour les capacités de réflexion lente et rapide et d'un entraînement RL spécialisé multiple.
Les améliorations de l'architecture incluent une attention efficace combinant MLA, DSA et SWA dans un ratio de couches de 1:2 pour réduire les coûts de calcul et de mémoire.
Le modèle remplace le chemin résiduel conventionnel par une conception mHC à 4 flux pour améliorer la diversité de représentation et la généralisation.
La prédiction multi-tokens utilise trois têtes pour rédiger trois tokens supplémentaires par étape afin d'accélérer l'inférence via le décodage auto-spéculatif.
L'entraînement emploie l'optimiseur Muon pour atteindre une convergence plus rapide.

La publication offre une option open-source pour la raisonnement de contexte long haute performance avec une vitesse d'inférence optimisée.