Глубина репрезентации осознания оценки меняется с масштабом в языковых моделях с открытым весом

В данном исследовании изучается, осознают ли языковые модели тот факт, что их тестируют, — фактор, критически важный для безопасности ИИ, поскольку он может заставлять модели стратегически изменять своё поведение. Используя 11 моделей с открытым весом из семейств Qwen 2.5, Gemma 2 и Llama 3.2, исследователи проанализировали, как осознание оценки проявляется в моделях разных размеров.

Слой, в котором осознание оценки наиболее линейно восстанавливаемо, смещается с поздних слоёв в меньших моделях на ранние слои в больших для семейств Qwen 2.5 и Gemma 2.
Это смещение глубины объясняет, почему траектории масштабирования внутри семейства моделей являются немонотонными или обратными, а не следуют плавному универсальному степенному закону.
Сигналы зондов с белым ядром последовательно демонстрируют более сильное осознание оценки, чем поведенческие проявления с чёрным ядром.
Взаимосвязь между сигналами зондов и поведением варьируется в зависимости от семейства моделей способами, которые не предсказываются только AUROC зонда.

Эти результаты указывают на то, что масштаб изменяет не только силу осознания оценки, но и его расположение внутри сети, бросая вызов простым универсальным моделям масштабирования.