Статья представляет поведенческую систему оценки для калибровки заявлений о памяти при тестовом обучении (TTT) с учетом реальных возможностей развертывания, таких как персонализация и воспроизведение. Утверждается, что стандартные прокси-метрики, такие как перплексия, являются недостаточным доказательством для этих сложных поведенческих аспектов, которые требуют прямой поведенческой валидации.

  • Система включает лестницу доказательств, калиброванную по заявкам, различающую адаптацию потока и поведенческое обучение во время развертывания.
  • Используется протокол оценки с явными базовыми линиями памяти и взаимоисключающими категориями ошибок.
  • Валидация посредством контролируемой диагностики на моделях Qwen3 показывает, что хотя одношаговые обновления LoRA снижают потерю поддержки и ответа, свободное воспроизведение остается равным нулю.

Этот подход предоставляет авторам и оценщикам конкретный стандарт для согласования заявлений о памяти TTT с фактическими представленными доказательствами.