media r/LocalLLaMA · 3 小时前 · 来源： 4 天前 · open_models

openPangu 发布 openPangu-2.0-Flash，一款拥有 512k 上下文的 92B MoE 模型

译自 English → 中文

openpangu 团队发布了 openPangu-2.0-Flash，这是一款在 Ascend 硬件上训练的混合专家（MoE）模型。该模型具有 920 亿总参数和 60 亿激活参数，并支持 512k token 的上下文长度。

训练使用了 34 万亿个预训练 token，随后进行了统一的 SFT 以具备慢思考和快思考能力，以及多次专家 RL 训练。
架构改进包括高效的注意力机制，将 MLA、DSA 和 SWA 以 1:2 的层比例结合，以降低计算和内存成本。
该模型用 4 流 mHC 设计取代了传统的残差路径，以提高表示多样性和泛化能力。
多 token 预测使用三个头来为每一步生成三个额外的 token，通过自投机解码实现更快的推理。
训练采用 Muon 优化器以实现更快的收敛。

此次发布提供了高性能长上下文推理的开源选项，并优化了推理速度。

重要性 1/3 r/LocalLLaMA Inference efficiency Open weights