Глубина репрезентации осознания оценки меняется с масштабом в языковых моделях с открытым весом
В данном исследовании изучается, осознают ли языковые модели тот факт, что их тестируют, — фактор, критически важный для безопасности ИИ, поскольку он может заставлять модели стратегически изменять своё поведение. Используя 11 моделей с открытым весом из семейств Qwen 2.5, Gemma 2 и Llama 3.2, исследователи проанализировали, как осознание оценки проявляется в моделях разных размеров.