L'équipe openpangu a publié openPangu-2.0-Flash, un modèle Mixture of Experts (MoE) entraîné sur du matériel Ascend. Le modèle dispose de 92 milliards de paramètres au total avec 6 milliards de paramètres activés et prend en charge une longueur de contexte de 512k tokens.
- L'entraînement a utilisé 34 billions de tokens de pré-entraînement, suivis d'un SFT unifié pour les capacités de réflexion lente et rapide et d'un entraînement RL spécialisé multiple.
- Les améliorations de l'architecture incluent une attention efficace combinant MLA, DSA et SWA dans un ratio de couches de 1:2 pour réduire les coûts de calcul et de mémoire.
- Le modèle remplace le chemin résiduel conventionnel par une conception mHC à 4 flux pour améliorer la diversité de représentation et la généralisation.
- La prédiction multi-tokens utilise trois têtes pour rédiger trois tokens supplémentaires par étape afin d'accélérer l'inférence via le décodage auto-spéculatif.
- L'entraînement emploie l'optimiseur Muon pour atteindre une convergence plus rapide.
La publication offre une option open-source pour la raisonnement de contexte long haute performance avec une vitesse d'inférence optimisée.