EvalSafetyGap: Гибридный обзор и концептуальная рамка для оценки провалов безопасности LLM
Эта статья решает проблему общего измерения в оценке LLM и безопасности ИИ, где баллы бенчмарков часто улучшаются, тогда как скрытые свойства безопасности остаются трудными для проверки. Она представляет EvalSafetyGap — гибридный обзор и концептуальная рамка, сочетающая систематический синтез доказательств со структурированным аудитом десяти моделей.