Исследования показывают, что языковые модели, обученные объяснять свои предсказания с использованием фиксированных контрфактических объяснений, часто генерируют интроспекции, верные их собственному текущему поведению, а не целевым показателям обучения. Эта «интроспективная связь» возникает, когда обучение объяснениям остается коррелированным с изменяющимся поведением модели, позволяя системе отслеживать изменения без обновленного контроля.

  • Модели генерируют объяснения, более согласованные с их текущим поведением, чем фиксированные обучающие данные, полученные из предыдущих контрольных точек или аналогичных моделей.
  • Интроспективная связь отслеживает сдвиги в поведении даже тогда, когда обучение объяснениям выполняется параллельно с другими целями постобучения.
  • Явление наблюдается во множестве задач, включая сycophancy (угодничество) и отказ, и остается устойчивым к шуму в метках.

Полученные результаты указывают на то, что фиксированные наборы данных контрфактических объяснений могут обеспечивать масштабируемый и обобщаемый сигнал постобучения для интроспекции.