内省的結合: 固定された監督下でも行動変化を追跡する自己説明トレーニング

研究により、固定された反事実的説明を用いて予測を説明するように訓練された言語モデルは、訓練ターゲットではなく自身の現在の行動に忠実な内省を生み出すことが示されている。この「内省的結合」は、説明の訓練が変化しつつあるモデルの行動と相関を保つ場合に発生し、システムが更新された監督なしで変化を追跡することを可能にする。

モデルは、以前のチェックポイントや類似モデルから導出された固定された訓練データよりも、現在の行動とより整合性の取れた説明を生成する。
内省的結合は、説明の訓練が他のポストトレーニング目的と並行して実行されている場合でも、行動の変化を追跡する。
この現象は、同調性や拒否を含む複数のタスクで観察され、ラベルノイズに対して頑健である。

これらの知見は、反事実的説明の固定されたデータセットが、内省のためのスケーラブルで汎用性の高いポストトレーニングシグナルを提供し得ることを示している。