著者らは、現在の状態と提案された更新の両方に条件付けられた学習可能な入力依存ゲートによって各サブレイヤーの更新をスケーリングするメカニズム「Review Residuals」を提案している。このアプローチは、固定係数で常に更新を追加する標準的な残差接続の制限に対処し、コミットする前に更新の信頼性を評価することを目的としている。
- ゲート関数は、以前の隠れ状態と提案された更新の両方のRMSNormに適用される重みのシグモイドを使用する。
- 凸型(Highwayスタイル)のゲート形式は約20層を超えると勾配消失を引き起こすが、加法形式はテストされたすべての深さで安定して訓練できる。
- 5つのサイズ(60M〜1Bパラメータ)でゼロから訓練されたモデルは、小規模スケールでは優位性を見せなかった。
- 590Mパラメータにおいて、Review ResidualsはパラメータマッチしたHighwayゲートや標準的な残差接続を有意に上回った(p<0.05)。
- パフォーマンスの利益はモデルサイズとともに増加し、1Bスケールでより大きな優位性を示した。
著者らは、これが標準的な残差接続に対して安定かつスケーラブルな改善を提供し、大規模なモデルスケールでのみ現れるため、重要であると見なしている。