Los modelos de lenguaje abiertos muestran que la conciencia de evaluación no es un rasgo unificado. Ocho experimentos en 37 modelos revelan que la detección, los cambios en el comportamiento de seguridad y la estabilidad de las representaciones varían independientemente, con solo correlaciones débiles entre ellas. Esto socava la idea de una puntuación única de conciencia como indicador fiable de la seguridad en el despliegue, destacando la 'ilusión del benchmark'.
La conciencia de evaluación es multivariada, no una capacidad única
Traducido del English → Español