O artigo apresenta uma estrutura de avaliação comportamental para calibrar as reivindicações de memória do treinamento em tempo de teste (TTT) contra capacidades reais de implantação, como personalização e recuperação. Argumenta-se que métricas proxy padrão, como a perplexidade, são evidência insuficiente para esses comportamentos avançados, os quais exigem validação comportamental direta.

  • A estrutura inclui uma escada de evidências calibrada por reivindicações, distinguindo adaptação de fluxo de aprendizado comportamental em tempo de implantação.
  • Utiliza um protocolo de avaliação com linhas de base de memória explícita e categorias de falha mutuamente exclusivas.
  • A validação por meio de um diagnóstico controlado em modelos Qwen3 mostra que, embora as atualizações LoRA de um passo reduzam a perda de suporte e resposta, a recuperação livre-forma permanece em zero.

Esta abordagem fornece aos autores e avaliadores um padrão concreto para alinhar as reivindicações de memória do TTT com a evidência realmente relatada.