Couplage introspectif : L'entraînement par auto-explication suit les changements de comportement malgré une supervision fixe

La recherche démontre que les modèles de langage entraînés à expliquer leurs prédictions à l'aide d'explications contrefactuelles fixes produisent souvent des introspections fidèles à leurs propres comportements actuels plutôt qu'aux cibles d'entraînement. Ce "couplage introspectif" se produit lorsque la formation à l'explication reste corrélée aux comportements changeants du modèle, permettant au système de suivre les changements sans supervision mise à jour.

Les modèles génèrent des explications plus alignées avec leur comportement actuel que les données d'entraînement fixes dérivées de points de contrôle antérieurs ou de modèles similaires.
Le couplage introspectif suit les shifts de comportement même lorsque la formation à l'explication s'exécute simultanément avec d'autres objectifs post-entraînement.
Le phénomène est observé dans plusieurs tâches, y compris la sycomanie et le refus, et reste robuste au bruit d'étiquette.

Les résultats indiquent que des ensembles de données fixes d'explications contrefactuelles peuvent fournir un signal post-entraînement évolutif et généralisable pour l'introspection.