Калибровка и устойчивость к состязательным атакам автоматизированной оценки ASR
В данном исследовании оценивается надежность автоматизированных судей, используемых для измерения частоты успешных атак (ASR) при джейлбрейке LLM, путем их сравнения с мнением большинства людей. Используя 596 аннотированных человеком завершений из HarmBench, авторы обнаруживают, что специализированные классификаторы безопасности дают много ложных срабатываний при высоком значении recall, но более низком precision, тогда как LLM-as-judges демонстрируют нестабильное значение recall в диапазоне от 0.06 до 0.65. Эти расхождения приводят к значительной вариативности сообщаемых показателей ASR в зависимости от того, какое семейство судей используется. Исследование также подчеркивает резкие различия в устойчивости: обертки с безвредным оформлением могут изменять решения LLM-судей от 57% до 100% случаев. Напротив, специализированные классификаторы устойчивы к таким поверхностным атакам, но остаются уязвимыми к белым ящикам GCG-атак, которые изменили 70% уверенных истинно положительных результатов, несмотря на небольшой бюджет оптимизации. Двуханнотаторский аудит подтвердил, что эти состязательные изменения сохраняют исходный вредоносный характер контента. В результате многие текущие метрики ASR признаются ненадежными как при целенаправленном давлении, так и в средних условиях. Авторы рекомендуют сообщать точность (precision) и полноту (recall) судей на данных, аннотированных человеком, а также включать состязательные проверки в будущие исследования.