Los modelos de lenguaje codifican el valor de su trayectoria actual

Qwen3-8B rastrea internamente el valor de su trayectoria actual, definido como la probabilidad de lograr sus objetivos. Este eje de 'valor' distingue los niveles de confianza, el comportamiento de retroceso y la corrección del código, y muestra que la optimización de preferencias aumenta la confianza en las conductas recompensadas. El modelo asigna un valor bajo a las consultas políticamente sensibles después del entrenamiento, y el ajuste fino incrementa la confianza dentro de dominios específicos.