A equipe do openpangu lançou o openPangu-2.0-Flash, um modelo Mixture of Experts (MoE) treinado em hardware Ascend. O modelo possui 92 bilhões de parâmetros totais e 6 bilhões de parâmetros ativados, além de suportar um comprimento de contexto de 512k tokens.

  • O treinamento utilizou 34 trilhões de tokens de pré-treinamento, seguidos por SFT unificado para capacidades de pensamento lento e rápido e múltiplos treinamentos RL especializados.
  • As melhorias na arquitetura incluem atenção eficiente que combina MLA, DSA e SWA em uma proporção de camadas de 1:2 para reduzir custos de computação e memória.
  • O modelo substitui o caminho residual convencional por um design mHC de 4 fluxos para melhorar a diversidade de representação e a generalização.
  • A previsão de múltiplos tokens usa três cabeças para rascunhar três tokens adicionais por etapa para uma inferência mais rápida via decodificação autoespeculativa.
  • O treinamento emprega o otimizador Muon para alcançar uma convergência mais rápida.

O lançamento oferece uma opção de código aberto para raciocínio de alto desempenho com contexto longo e velocidade de inferência otimizada.