AdversaBench: Автоматизированное красное тестирование LLM с подтверждением многосудейской панели и переносимостью между моделями

Авторы представляют AdversaBench, конвейер красного тестирования от начала до конца, который генерирует сложные входные данные для больших языковых моделей с использованием пяти структурированных операторов мутации и подтверждает сбои через трехсудейскую панель с судьей-арбитром.

Эксперименты на 45 семплах по категориям рассуждений, следования инструкциям и использования инструментов привели к подтвержденным сбоям для каждого семпла.
Эффективность операторов варьируется в зависимости от категории: inject_distractor показал среднюю награду 0.00 на семплах следования инструкциям, но 0.80-0.83 на семплах рассуждений и использования инструментов.
Семплы следования инструкциям требовали в среднем 2.4 итераций атакующего по сравнению с 1.1 для других категорий, выявляя пробелы в сложности, скрытые бинарными показателями сбоев.
Парное согласие судей 80-87% сосуществует с почти нулевым коэффициентом Каппа Коэна из-за перекоса меток, что указывает на то, что уровни несогласия на уровне категорий более информативны.
Адверсариальные промпты, сгенерированные против Llama 3.1 8B, переносятся нулевым обучением на Llama 3.3 70B, что предполагает, что мутации эксплуатируют общие поведенческие паттерны, а не специфичные для модели слабости.

Исследование подчеркивает важность использования подтверждения многосудейской панели и анализа на уровне категорий для точной оценки адверсариальной устойчивости больших языковых моделей.