El artículo presenta un marco de evaluación conductual para calibrar las afirmaciones de memoria del entrenamiento en tiempo de prueba (TTT) frente a las capacidades reales de despliegue como la personalización y la recuperación. Argumenta que las métricas proxy estándar, como la perplejidad, son evidencia insuficiente para estos comportamientos avanzados, los cuales requieren validación conductual directa.

  • El marco incluye una escalera de evidencia calibrada por afirmaciones que distingue entre adaptación de flujo y aprendizaje conductual en tiempo de despliegue.
  • Utiliza un protocolo de evaluación con líneas base de memoria explícita y categorías de fallo mutuamente excluyentes.
  • La validación mediante un diagnóstico controlado en modelos Qwen3 muestra que, aunque las actualizaciones LoRA de un solo paso reducen la pérdida de soporte y respuesta, la recuperación libre-forma permanece en cero.

Este enfoque proporciona a los autores y evaluadores un estándar concreto para alinear las afirmaciones de memoria de TTT con la evidencia realmente reportada.