AdversaBench: автоматизированная проверка уязвимостей больших языковых моделей с подтверждением несколькими судьями

AdversaBench представляет полную цепочку проверки уязвимостей, которая генерирует враждебные запросы с помощью пяти структурированных операторов, оценивает целевые модели и подтверждает сбои с помощью трех судей с метасудьей в качестве разрешения споров. Эксперименты по 45 исходным запросам в областях логического мышления, выполнения инструкций и использования инструментов показывают, что каждый исходный запрос приводит к подтвержденному сбою, при этом эффективность операторов, количество итераций сбоев, согласие судей и переносимость сбоев между моделями выявляют ключевые паттерны уязвимости больших языковых моделей.