Команда openpangu выпустила openPangu-2.0-Flash, модель Mixture of Experts (MoE), обученную на оборудовании Ascend. Модель имеет 92 миллиарда общих параметров и 6 миллиардов активируемых параметров, а также поддерживает длину контекста в 512k токенов.

  • Обучение использовало 34 триллиона токенов предварительного обучения, за которыми последовали унифицированное SFT для медленного и быстрого мышления и несколько этапов специализированного RL-обучения.
  • Улучшения архитектуры включают эффективное внимание, объединяющее MLA, DSA и SWA в соотношении слоев 1:2 для снижения вычислительных затрат и расходов памяти.
  • Модель заменяет обычный остаточный путь на дизайн mHC с 4 потоками для повышения разнообразия представлений и обобщающей способности.
  • Многошаговое предсказание токенов использует три головы для генерации трех дополнительных токенов на шаг, что ускоряет вывод через самоспекулятивное декодирование.
  • Обучение использует оптимизатор Muon для достижения более быстрой сходимости.

Выпуск предоставляет вариант с открытым исходным кодом для высокопроизводительного рассуждения с длинным контекстом и оптимизированной скоростью вывода.