Más allá de la perplejidad: Un marco de evaluación conductual para afirmaciones de memoria en despliegue durante el entrenamiento en tiempo de prueba de LLM

El artículo presenta un marco de evaluación conductual para calibrar las afirmaciones de memoria del entrenamiento en tiempo de prueba (TTT) frente a las capacidades reales de despliegue como la personalización y la recuperación. Argumenta que las métricas proxy estándar, como la perplejidad, son evidencia insuficiente para estos comportamientos avanzados, los cuales requieren validación conductual directa.

El marco incluye una escalera de evidencia calibrada por afirmaciones que distingue entre adaptación de flujo y aprendizaje conductual en tiempo de despliegue.
Utiliza un protocolo de evaluación con líneas base de memoria explícita y categorías de fallo mutuamente excluyentes.
La validación mediante un diagnóstico controlado en modelos Qwen3 muestra que, aunque las actualizaciones LoRA de un solo paso reducen la pérdida de soporte y respuesta, la recuperación libre-forma permanece en cero.

Este enfoque proporciona a los autores y evaluadores un estándar concreto para alinear las afirmaciones de memoria de TTT con la evidencia realmente reportada.