超越困惑度：针对LLM测试时训练部署内存声明的行为评估框架

本文介绍了一种行为评估框架，用于校准测试时训练（TTT）的内存声明与实际部署能力（如个性化和回忆）之间的差距。文章认为，诸如困惑度等标准代理指标不足以证明这些高级行为，这些行为需要直接的行为验证。

这种方法为作者和评估者提供了一个具体标准，用于将 TTT 内存声明与实际报告的证据对齐。