La profundidad representacional de la conciencia de evaluación cambia con la escala en modelos de lenguaje de peso abierto

Este estudio investiga si los modelos de lenguaje reconocen cuándo están siendo evaluados, un factor crítico para la seguridad de la IA ya que puede hacer que los modelos alteren su comportamiento estratégicamente. Utilizando 11 modelos de peso abierto de las familias Qwen 2.5, Gemma 2 y Llama 3.2, los investigadores analizaron cómo se manifiesta la conciencia de evaluación en diferentes tamaños de modelo.

La capa donde la conciencia de evaluación es más linealmente recuperable cambia de las capas tardías en modelos más pequeños a las capas iniciales en modelos más grandes tanto para Qwen 2.5 como para Gemma 2.
Este cambio de profundidad explica por qué las trayectorias de escalado dentro de una familia de modelos son no monótonas o inversas en lugar de seguir una ley de potencia universal y suave.
Las señales de sonda de caja blanca muestran consistentemente una conciencia de evaluación más fuerte que las expresiones conductuales de caja negra.
La relación entre las señales de sonda y el comportamiento varía según la familia de modelo de maneras no predichas solo por la AUROC de la sonda.

Estos hallazgos sugieren que el cambio de escala altera no solo la fuerza de la conciencia de evaluación sino también su ubicación dentro de la red, desafiando las explicaciones simples de escalado universal.