¿Dónde encuentran la felicidad los modelos? Vectores de emoción en LLMs de código abierto

Este estudio investiga la presencia y estructura de vectores de emoción en modelos de lenguaje grandes de peso abierto, específicamente Apertus-8B-Instruct-2509 y Gemma-4-E4B-it. La investigación confirma que estos modelos codifican la geometría de la valencia con una alta correlación a las estructuras psicológicas humanas, acercándose a los niveles previamente observados en Claude Sonnet 4.5.

Las correlaciones de valencia alcanzaron r = 0.76 para Apertus-8B-Instruct-2509 y r = 0.83 para Gemma-4-E4B-it, en comparación con r = 0.81 para Claude Sonnet 4.5.
La emergencia de la representación de valencia difiere por profundidad: es fuerte en las capas iniciales pero colapsa en las capas posteriores para Gemma-4-E4B-it, mientras que aparece solo en las profundidades medias para Apertus-8B-Instruct-2509.
La sensibilidad de codificación de la activación varía según el corpus de extracción, con ambos modelos mostrando una alineación más fuerte utilizando historias generadas por Gemma (r hasta 0.45) que las generadas por Apertus (r ≤ 0.21).

Los autores publican el código del experimento y el conjunto de datos para facilitar la investigación reproducible de las representaciones emocionales a través de diferentes arquitecturas de modelos de lenguaje.

Estos hallazgos demuestran que las representaciones emocionales internas son una característica generalizable a través de diferentes arquitecturas de LLMs de código abierto, aunque su emergencia y estabilidad varían significativamente según la profundidad del modelo y la distribución de los datos de entrenamiento.