AdversaBench: Автоматизированное красное тестирование LLM с подтверждением многосудейской панели и переносимостью между моделями
Авторы представляют AdversaBench, конвейер красного тестирования от начала до конца, который генерирует сложные входные данные для больших языковых моделей с использованием пяти структурированных операторов мутации и подтверждает сбои через трехсудейскую панель с судьей-арбитром.