За пределами перплексии: Поведенческая система оценки для проверки заявлений о памяти при развертывании в тестовом обучении LLM

Статья представляет поведенческую систему оценки для калибровки заявлений о памяти при тестовом обучении (TTT) с учетом реальных возможностей развертывания, таких как персонализация и воспроизведение. Утверждается, что стандартные прокси-метрики, такие как перплексия, являются недостаточным доказательством для этих сложных поведенческих аспектов, которые требуют прямой поведенческой валидации.

Система включает лестницу доказательств, калиброванную по заявкам, различающую адаптацию потока и поведенческое обучение во время развертывания.
Используется протокол оценки с явными базовыми линиями памяти и взаимоисключающими категориями ошибок.
Валидация посредством контролируемой диагностики на моделях Qwen3 показывает, что хотя одношаговые обновления LoRA снижают потерю поддержки и ответа, свободное воспроизведение остается равным нулю.

Этот подход предоставляет авторам и оценщикам конкретный стандарт для согласования заявлений о памяти TTT с фактическими представленными доказательствами.