Se encuentra que las representaciones de la calidad del ensayo en los LLM son linealmente accesibles
Un estudio revela que la información sobre la calidad del ensayo en los modelos de lenguaje grandes está codificada en formas linealmente accesibles dentro de sus representaciones ocultas. Estas representaciones emergen capa por capa, permanecen estables entre diferentes prompts y muestran transferencia parcial entre distintos prompts de ensayo, con ensayos más largos dependiendo más de las capas más profundas del modelo. La investigación identifica "neuronas específicas para la puntuación de ensayos" cuya activación se correlaciona fuertemente con las puntuaciones y puede ser influenciada por intervenciones dirigidas.