研究者らは、単一フォワードパス内で2ホップ推論を改善するために、離散埋め込みチャネルと連続隠れ状態チャネルの両方を伝達するループ型トランスフォーマーアーキテクチャであるDiscoLoopを提案した。この手法は、追加学習なしで隠れ状態をブリッジトークン埋め込みと再整列させることで、標準的なループ型トランスフォーマーに見られる表現のボトルネックに対処する。
- 標準的な非再帰的トランスフォーマーは、深さ局所記憶の問題に悩まされており、早期の層で学習された事実が2ホップ検索のために利用できない。
- 以前のループ型トランスフォーマーは、デコード可能なエンティティが正しくとも隠れ状態がブリッジトークン埋め込みと十分に整列しなかったため、不完全な一般化しか達成できなかった。
- DiscoLoopは混合チャネル設計を採用しており、記号的および合成言語タスクにおいて、大幅に少ない学習ステップでほぼ完璧な精度を達成する。
- 実際の事前トレーニングでは、このアーキテクチャはループ型トランスフォーマーのベースラインよりも低い学習損失と強力なベンチマークパフォーマンスを実現する。
著者らは、この混合チャネル設計が実用的な言語モデリングに移行可能であり、モデルが多段階推論をより効果的に内部化できるため、これを重要視している。