Где модели находят счастье? Векторы эмоций в открыто-весовых больших языковых моделях

Это исследование исследует наличие и структуру векторов эмоций в открыто-весовых больших языковых моделях, конкретно Apertus-8B-Instruct-2509 и Gemma-4-E4B-it. Исследование подтверждает, что эти модели кодируют геометрию валентности с высокой корреляцией к человеческим психологическим структурам, приближаясь к уровням, ранее наблюдаемым в Claude Sonnet 4.5.

Корреляции валентности достигли r = 0.76 для Apertus-8B-Instruct-2509 и r = 0.83 для Gemma-4-E4B-it, по сравнению с r = 0.81 для Claude Sonnet 4.5.
Появление представления валентности различается по глубине: оно сильно в ранних слоях, но коллапсирует в более поздних слоях для Gemma-4-E4B-it, тогда как появляется только на средних глубинах для Apertus-8B-Instruct-2509.
Чувствительность кодирования возбуждения варьируется в зависимости от корпуса извлечения, при этом обе модели показывают более сильное выравнивание с использованием историй, сгенерированных Gemma (r до 0.45), чем с Apertus (r ≤ 0.21).

Авторы открывают исходный код эксперимента и набор данных для облегчения воспроизводимого исследования представлений эмоций в различных архитектурах языковых моделей.

Эти результаты демонстрируют, что внутренние эмоциональные представления являются обобщаемой особенностью в различных архитектурах открыто-весовых больших языковых моделей, хотя их появление и стабильность значительно варьируются в зависимости от глубины модели и распределения обучающих данных.