研究者らは、次のトークン予測と状態保存を分離することが言語モデル性能の向上につながるとする状態予測分離仮説を提案した。彼らはこれらの機能を分離するために2つの計算ストリームを用いたTransformer変種を設計し、様々な規模で事前学習実験を実施した。

  • 提案されたアーキテクチャは、標準的なTransformerと比較して、データおよび計算効率の一貫した向上をもたらす。
  • 事前学習中の検証損失が改善される。
  • 下流タスクにおいて平均して標準的なTransformerよりも2--3パーセントポイント優れている。
  • 実証的分析により交絡因子が排除され、この設計に伴う勾配の根本的な違いが示された。

著者らは、これは計算役割のアーキテクチャ的分離を通じてモデル性能を向上させる手法を提供するものとして重要であると見なしている。