EvalSafetyGap: Гибридный обзор и концептуальная рамка для оценки провалов безопасности LLM

Эта статья решает проблему общего измерения в оценке LLM и безопасности ИИ, где баллы бенчмарков часто улучшаются, тогда как скрытые свойства безопасности остаются трудными для проверки. Она представляет EvalSafetyGap — гибридный обзор и концептуальная рамка, сочетающая систематический синтез доказательств со структурированным аудитом десяти моделей.

Синтез охватывает восемь потоков доказательств за период 2018–2026 гг., включая валидность бенчмарков, надежность LLM-as-judge, обман функции вознаграждения (reward hacking) и механистическую интерпретируемость.
EvalSafetyGap использует закон Гудхарта, декомпозицию нестабильности и тролемму выравнивания для сравнения прокси-провалов на стороне оценки и на стороне выравнивания под давлением оптимизации.
Аудит десяти моделей показал, что связь между способностью и устойчивой адверсариальной робастностью статистически неопределима (Пирсон r = +0.232, p = 0.520).
Видимый разрыв безопасности между открытыми и закрытыми моделями был умеренным и в основном обусловлен управлением и раскрытием информации, а не поведенческой робастностью.

Вклад статьи предоставляет общий словарь и карту доказательств для поддержки динамической оценки, прозрачной отчетности об источниках, измерения безопасности при многократных попытках и проверяемой практики выравнивания.