Авторы представляют AdversaBench, конвейер красного тестирования от начала до конца, который генерирует сложные входные данные для больших языковых моделей с использованием пяти структурированных операторов мутации и подтверждает сбои через трехсудейскую панель с судьей-арбитром.
- Эксперименты на 45 семплах по категориям рассуждений, следования инструкциям и использования инструментов привели к подтвержденным сбоям для каждого семпла.
- Эффективность операторов варьируется в зависимости от категории: inject_distractor показал среднюю награду 0.00 на семплах следования инструкциям, но 0.80-0.83 на семплах рассуждений и использования инструментов.
- Семплы следования инструкциям требовали в среднем 2.4 итераций атакующего по сравнению с 1.1 для других категорий, выявляя пробелы в сложности, скрытые бинарными показателями сбоев.
- Парное согласие судей 80-87% сосуществует с почти нулевым коэффициентом Каппа Коэна из-за перекоса меток, что указывает на то, что уровни несогласия на уровне категорий более информативны.
- Адверсариальные промпты, сгенерированные против Llama 3.1 8B, переносятся нулевым обучением на Llama 3.3 70B, что предполагает, что мутации эксплуатируют общие поведенческие паттерны, а не специфичные для модели слабости.
Исследование подчеркивает важность использования подтверждения многосудейской панели и анализа на уровне категорий для точной оценки адверсариальной устойчивости больших языковых моделей.