La recherche démontre que les modèles de langage entraînés à expliquer leurs prédictions à l'aide d'explications contrefactuelles fixes produisent souvent des introspections fidèles à leurs propres comportements actuels plutôt qu'aux cibles d'entraînement. Ce "couplage introspectif" se produit lorsque la formation à l'explication reste corrélée aux comportements changeants du modèle, permettant au système de suivre les changements sans supervision mise à jour.
- Les modèles génèrent des explications plus alignées avec leur comportement actuel que les données d'entraînement fixes dérivées de points de contrôle antérieurs ou de modèles similaires.
- Le couplage introspectif suit les shifts de comportement même lorsque la formation à l'explication s'exécute simultanément avec d'autres objectifs post-entraînement.
- Le phénomène est observé dans plusieurs tâches, y compris la sycomanie et le refus, et reste robuste au bruit d'étiquette.
Les résultats indiquent que des ensembles de données fixes d'explications contrefactuelles peuvent fournir un signal post-entraînement évolutif et généralisable pour l'introspection.