内省耦合：尽管监督固定，自我解释训练仍能追踪行为变化

研究表明，使用固定的反事实解释进行训练的模型在解释其预测时，往往会产生忠实于其自身当前行为而非训练目标的内省。这种“内省耦合”发生在解释训练与不断变化的模型行为保持相关时，使得系统能够在没有更新监督的情况下追踪变化。

研究结果表明，固定的反事实解释数据集可以为内省提供可扩展且可泛化的后训练信号。