Penelitian menunjukkan bahwa model bahasa yang dilatih untuk menjelaskan prediksi mereka menggunakan penjelasan kontrafaktual tetap sering menghasilkan introspeksi yang setia pada perilaku saat ini mereka sendiri daripada target pelatihan. "Kopling introspektif" ini terjadi ketika pelatihan penjelasan tetap berkorelasi dengan perubahan perilaku model, memungkinkan sistem melacak perubahan tanpa supervisi yang diperbarui.

  • Model menghasilkan penjelasan yang lebih selaras dengan perilaku saat ini mereka daripada data pelatihan tetap yang berasal dari checkpoint sebelumnya atau model serupa.
  • Kopling introspektif melacak pergeseran perilaku bahkan ketika pelatihan penjelasan berjalan bersamaan dengan tujuan pasca-pelatihan lainnya.
  • Fenomena ini diamati di berbagai tugas, termasuk sycophancy dan penolakan, dan tetap robust terhadap noise label.

Temuan tersebut menunjukkan bahwa dataset tetap dari penjelasan kontrafaktual dapat memberikan sinyal pasca-pelatihan yang skalabel dan generalisasi untuk introspeksi.