本文介绍了一种行为评估框架,用于校准测试时训练(TTT)的内存声明与实际部署能力(如个性化和回忆)之间的差距。文章认为,诸如困惑度等标准代理指标不足以证明这些高级行为,这些行为需要直接的行为验证。

  • 该框架包括一个按声明校准的证据阶梯,区分流适应与部署时的行为学习。
  • 它利用具有显式内存基线和互斥失败类别的评估协议。
  • 通过对 Qwen3 模型进行受控诊断进行的验证显示,尽管单步 LoRA 更新降低了支持和答案损失,但自由形式回忆仍为零。

这种方法为作者和评估者提供了一个具体标准,用于将 TTT 内存声明与实际报告的证据对齐。