La profundidad representacional de la conciencia de evaluación cambia con la escala en modelos de lenguaje de peso abierto
Este estudio investiga si los modelos de lenguaje reconocen cuándo están siendo evaluados, un factor crítico para la seguridad de la IA ya que puede hacer que los modelos alteren su comportamiento estratégicamente. Utilizando 11 modelos de peso abierto de las familias Qwen 2.5, Gemma 2 y Llama 3.2, los investigadores analizaron cómo se manifiesta la conciencia de evaluación en diferentes tamaños de modelo.