La investigación demuestra que los modelos de lenguaje entrenados para explicar sus predicciones utilizando explicaciones contrafácticas fijas a menudo producen introspecciones fieles a su propio comportamiento actual en lugar de los objetivos de entrenamiento. Este «acoplamiento introspectivo» ocurre cuando el entrenamiento de explicación sigue correlacionado con los cambios en el comportamiento del modelo, permitiendo al sistema rastrear cambios sin supervisión actualizada.

  • Los modelos generan explicaciones más alineadas con su comportamiento actual que los datos de entrenamiento fijos derivados de puntos de control anteriores o modelos similares.
  • El acoplamiento introspectivo rastrea cambios conductuales incluso cuando el entrenamiento de explicación se ejecuta concurrentemente con otros objetivos posteriores al entrenamiento.
  • El fenómeno se observa en múltiples tareas, incluyendo la sycophancy (adulación) y la negativa, y permanece robusto ante el ruido en las etiquetas.

Los hallazgos indican que los conjuntos de datos fijos de explicaciones contrafácticas pueden proporcionar una señal post-entrenamiento escalable y generalizable para la introspección.