研究表明,使用固定的反事实解释进行训练的模型在解释其预测时,往往会产生忠实于其自身当前行为而非训练目标的内省。这种“内省耦合”发生在解释训练与不断变化的模型行为保持相关时,使得系统能够在没有更新监督的情况下追踪变化。
- 模型生成的解释与其当前行为的对齐程度高于源自早期检查点或类似模型的固定训练数据。
- 即使解释训练与其他后训练目标并行运行,内省耦合仍能追踪行为转变。
- 该现象在包括阿谀奉承(sycophancy)和拒绝在内的多个任务中均被观察到,并且对标签噪声保持鲁棒性。
研究结果表明,固定的反事实解释数据集可以为内省提供可扩展且可泛化的后训练信号。