openPangu выпускает openPangu-2.0-Flash, модель MoE на 92B с контекстом 512k

Команда openpangu выпустила openPangu-2.0-Flash, модель Mixture of Experts (MoE), обученную на оборудовании Ascend. Модель имеет 92 миллиарда общих параметров и 6 миллиардов активируемых параметров, а также поддерживает длину контекста в 512k токенов.

Обучение использовало 34 триллиона токенов предварительного обучения, за которыми последовали унифицированное SFT для медленного и быстрого мышления и несколько этапов специализированного RL-обучения.
Улучшения архитектуры включают эффективное внимание, объединяющее MLA, DSA и SWA в соотношении слоев 1:2 для снижения вычислительных затрат и расходов памяти.
Модель заменяет обычный остаточный путь на дизайн mHC с 4 потоками для повышения разнообразия представлений и обобщающей способности.
Многошаговое предсказание токенов использует три головы для генерации трех дополнительных токенов на шаг, что ускоряет вывод через самоспекулятивное декодирование.
Обучение использует оптимизатор Muon для достижения более быстрой сходимости.

Выпуск предоставляет вариант с открытым исходным кодом для высокопроизводительного рассуждения с длинным контекстом и оптимизированной скоростью вывода.