연구에 따르면 고정된 반사실적 설명을 사용하여 예측을 설명하도록 훈련된 언어 모델은 훈련 대상이 아니라 자신의 현재 행동에 충실한 성찰을 생성하는 것으로 나타났습니다. 이 "성찰적 결합"은 설명 훈련이 변화하는 모델 행동과 상관관계를 유지할 때 발생하며, 시스템이 업데이트된 감독 없이도 변화를 추적할 수 있게 합니다.

  • 모델은 이전 체크포인트나 유사 모델에서 유도된 고정된 훈련 데이터보다 현재 행동과 더 일치하는 설명을 생성합니다.
  • 성찰적 결합은 설명 훈련이 다른 사후 학습 목표와 병렬로 실행되는 경우에도 행동 변화를 추적합니다.
  • 이 현상은 동조성 및 거부를 포함한 여러 작업에서 관찰되며 라벨 노이즈에 강건합니다.

이 결과는 반사실적 설명의 고정된 데이터 세트가 성찰을 위한 확장 가능하고 일반화 가능한 사후 학습 신호를 제공할 수 있음을 나타냅니다.