研究者らは、隠れ状態内で多段階推論を実行するためにループ処理されたパディング済みTransformerを使用するLOTUSという手法を紹介した。これは、3Bパラメータ規模において潜在連鎖思考(CoT)と明示的連鎖思考のパフォーマンスのギャップを効果的に埋める。モデルは、ゴールドのCoTステップトークンに対する交差エントロピー損失を用いて、R回の反復でK個の潜在ブロックを並列に処理する。
- LOTUSは、3B規模で明示的CoTのパフォーマンスに匹敵する最初の潜在CoT手法である。
- トークンごとの生成と比較して、思考フェーズのレイテンシーを2.5倍から6.9倍削減する。
- ループ後の潜在ベクトルをベースLMのヘッドに投影することで、ゴールドの推論ステップが復元され、他の有効な中間ステップも浮き彫りになる。
- アブレーションにより、このパフォーマンスにはループするバックボーンとゴールドCoTトークンに対する並列教師信号の両方が不可欠であることが確認された。
この手法は、潜在空間が解釈可能でCoTに整合していることを示し、複雑な推論タスクに対して明示的トークン生成よりも効率的な代替手段を提供する。