状態予測分離仮説がTransformerの効率を向上

研究者らは、次のトークン予測と状態保存を分離することが言語モデル性能の向上につながるとする状態予測分離仮説を提案した。彼らはこれらの機能を分離するために2つの計算ストリームを用いたTransformer変種を設計し、様々な規模で事前学習実験を実施した。

著者らは、これは計算役割のアーキテクチャ的分離を通じてモデル性能を向上させる手法を提供するものとして重要であると見なしている。