Фреймворк для красного тестирования выявляет уязвимости верности больших языковых моделей через многоуровневую архитектуру

В данной статье представлен фреймворк для красного тестирования, предназначенный для систематического выявления уязвимостей в выводах больших языковых моделей с использованием многоуровневой архитектуры. Система применяет модели-цели, атакующие и жюри для генерации состязательных промптов и строгой оценки точности и согласованности ответов. В случае исследования оценки верности использование эксплуатационных состязательных промптов увеличило долю успешных атак до 7,9% в задачах ответа на вопросы. Исследование демонстрирует, что выбор архитектурного дизайна обычно имеет большее значение, чем масштабирование параметров, при определении безопасности модели, и показывает, как структурные ограничения формируют паттерны уязвимостей. Фреймворк демонстрирует адаптивность в различных задачах оценки, от ответов на вопросы на английском языке до суммаризации на арабском. Однако подход сталкивается с трудностями в полной автоматизации генерации состязательных промптов для разных языков. Кроме того, эксперименты выявляют ограничения в обнаружении тонких форм неверности, которые не проявляются как явные фактические противоречия.