L'article présente un cadre d'évaluation comportementale pour calibrer les affirmations de mémoire de l'entraînement au moment du test (TTT) par rapport aux capacités réelles de déploiement telles que la personnalisation et la restitution. Il soutient que les métriques proxy standard telles que la perplexité sont des preuves insuffisantes pour ces comportements avancés, qui nécessitent une validation comportementale directe.

  • Le cadre comprend une échelle de preuves calibrée par l'affirmation distinguant l'adaptation en continu de l'apprentissage comportemental au moment du déploiement.
  • Il utilise un protocole d'évaluation avec des lignes de base à mémoire explicite et des catégories d'échec mutuellement exclusives.
  • La validation via un diagnostic contrôlé sur les modèles Qwen3 montre que bien que les mises à jour LoRA en une étape réduisent la perte de support et de réponse, la restitution libre reste à zéro.

Cette approche fournit aux auteurs et aux évaluateurs une norme concrète pour aligner les affirmations de mémoire TTT avec les preuves réellement rapportées.