El equipo de openpangu ha lanzado openPangu-2.0-Flash, un modelo Mixture of Experts (MoE) entrenado en hardware Ascend. El modelo cuenta con 92 mil millones de parámetros totales y 6 mil millones de parámetros activados, y admite una longitud de contexto de 512k tokens.
- El entrenamiento utilizó 34 billones de tokens de preentrenamiento, seguido de SFT unificado para capacidades de pensamiento lento y rápido y múltiples entrenamientos RL especializados.
- Las mejoras de arquitectura incluyen atención eficiente que combina MLA, DSA y SWA en una proporción de capas de 1:2 para reducir los costos de cómputo y memoria.
- El modelo reemplaza la ruta residual convencional con un diseño mHC de 4 flujos para mejorar la diversidad de representación y la generalización.
- La predicción de múltiples tokens utiliza tres cabezas para redactar tres tokens adicionales por paso para una inferencia más rápida mediante descodificación autoespeculativa.
- El entrenamiento emplea el optimizador Muon para lograr una convergencia más rápida.
El lanzamiento proporciona una opción de código abierto para el razonamiento de alto rendimiento con contexto largo y velocidad de inferencia optimizada.