openPangu lanza openPangu-2.0-Flash, un modelo MoE de 92B con contexto de 512k

El equipo de openpangu ha lanzado openPangu-2.0-Flash, un modelo Mixture of Experts (MoE) entrenado en hardware Ascend. El modelo cuenta con 92 mil millones de parámetros totales y 6 mil millones de parámetros activados, y admite una longitud de contexto de 512k tokens.

El entrenamiento utilizó 34 billones de tokens de preentrenamiento, seguido de SFT unificado para capacidades de pensamiento lento y rápido y múltiples entrenamientos RL especializados.
Las mejoras de arquitectura incluyen atención eficiente que combina MLA, DSA y SWA en una proporción de capas de 1:2 para reducir los costos de cómputo y memoria.
El modelo reemplaza la ruta residual convencional con un diseño mHC de 4 flujos para mejorar la diversidad de representación y la generalización.
La predicción de múltiples tokens utiliza tres cabezas para redactar tres tokens adicionales por paso para una inferencia más rápida mediante descodificación autoespeculativa.
El entrenamiento emplea el optimizador Muon para lograr una convergencia más rápida.

El lanzamiento proporciona una opción de código abierto para el razonamiento de alto rendimiento con contexto largo y velocidad de inferencia optimizada.