openpangu 团队发布了 openPangu-2.0-Flash,这是一款在 Ascend 硬件上训练的混合专家(MoE)模型。该模型具有 920 亿总参数和 60 亿激活参数,并支持 512k token 的上下文长度。
- 训练使用了 34 万亿个预训练 token,随后进行了统一的 SFT 以具备慢思考和快思考能力,以及多次专家 RL 训练。
- 架构改进包括高效的注意力机制,将 MLA、DSA 和 SWA 以 1:2 的层比例结合,以降低计算和内存成本。
- 该模型用 4 流 mHC 设计取代了传统的残差路径,以提高表示多样性和泛化能力。
- 多 token 预测使用三个头来为每一步生成三个额外的 token,通过自投机解码实现更快的推理。
- 训练采用 Muon 优化器以实现更快的收敛。
此次发布提供了高性能长上下文推理的开源选项,并优化了推理速度。