openpanguチームは、Ascendハードウェア上でトレーニングされたMixture of Experts (MoE)モデルであるopenPangu-2.0-Flashをリリースしました。このモデルは920億の総パラメータと60億の活性化パラメータを持ち、512kトークンのコンテキスト長をサポートします。

  • トレーニングには34兆の事前トレーニングトークンが使用され、その後、低速および高速思考機能のための統合SFTと複数の専門家RLトレーニングが行われました。
  • アーキテクチャの改善には、計算量とメモリコストを削減するためにMLA、DSA、SWAを組み合わせた効率的なアテンション(1:2の層比)が含まれます。
  • このモデルは、表現の多様性と汎化性能を向上させるため、従来の残差パスを4ストリームのmHC設計に置き換えています。
  • マルチトークン予測では、3つのヘッドを使用して各ステップで3つの追加トークンをドラフトし、自己推測的デコーディングによる推論の高速化を実現します。
  • トレーニングはより速い収束を達成するためにMuonオプティマイザーを採用しています。

このリリースは、最適化された推論速度を持つ高性能な長期コンテキスト推論のためのオープンソースオプションを提供します。