Além da Perplexidade: Uma Estrutura de Avaliação Comportamental para Reivindicações de Memória em Implantação no Treinamento em Tempo de Teste de LLMs

O artigo apresenta uma estrutura de avaliação comportamental para calibrar as reivindicações de memória do treinamento em tempo de teste (TTT) contra capacidades reais de implantação, como personalização e recuperação. Argumenta-se que métricas proxy padrão, como a perplexidade, são evidência insuficiente para esses comportamentos avançados, os quais exigem validação comportamental direta.

A estrutura inclui uma escada de evidências calibrada por reivindicações, distinguindo adaptação de fluxo de aprendizado comportamental em tempo de implantação.
Utiliza um protocolo de avaliação com linhas de base de memória explícita e categorias de falha mutuamente exclusivas.
A validação por meio de um diagnóstico controlado em modelos Qwen3 mostra que, embora as atualizações LoRA de um passo reduzam a perda de suporte e resposta, a recuperação livre-forma permanece em zero.

Esta abordagem fornece aos autores e avaliadores um padrão concreto para alinhar as reivindicações de memória do TTT com a evidência realmente relatada.