성찰적 결합: 고정된 감독 하에서도 행동 변화를 추적하는 자기 설명 학습

연구에 따르면 고정된 반사실적 설명을 사용하여 예측을 설명하도록 훈련된 언어 모델은 훈련 대상이 아니라 자신의 현재 행동에 충실한 성찰을 생성하는 것으로 나타났습니다. 이 "성찰적 결합"은 설명 훈련이 변화하는 모델 행동과 상관관계를 유지할 때 발생하며, 시스템이 업데이트된 감독 없이도 변화를 추적할 수 있게 합니다.

모델은 이전 체크포인트나 유사 모델에서 유도된 고정된 훈련 데이터보다 현재 행동과 더 일치하는 설명을 생성합니다.
성찰적 결합은 설명 훈련이 다른 사후 학습 목표와 병렬로 실행되는 경우에도 행동 변화를 추적합니다.
이 현상은 동조성 및 거부를 포함한 여러 작업에서 관찰되며 라벨 노이즈에 강건합니다.

이 결과는 반사실적 설명의 고정된 데이터 세트가 성찰을 위한 확장 가능하고 일반화 가능한 사후 학습 신호를 제공할 수 있음을 나타냅니다.