Взлом для среднестатистического пользователя: выбор оптимальных взломов с помощью алгоритмов бандитов

В данном исследовании изучается возможность успешного взлома больших языковых моделей неопытными злоумышленниками путем использования алгоритмов бандитов для выбора оптимальных атак и улучшения запросов. Авторы предлагают новую стратегию атаки на основе многоармочного бандита, позволяющую эффективно обучаться лучшему взлому из большого набора вариантов через зашумленное исследование.

Исследователи создали FrankensteinBench — бенчмарк безопасности, содержащий 11 279 вредоносных запросов, полученных из семи существующих бенчмарков с помощью автоматического улучшения и генерации.

Каждый запрос в бенчмарке классифицируется как простой или сложный в зависимости от уровня технических знаний, необходимых для его создания. Атака на основе бандита достигла средней частоты успеха 97% на 15 современных открытых языковых моделях с открытым весом. Добавление сложности к запросам увеличило среднюю частоту успешности атаки до 26%, что демонстрирует ее эффективность как автоматизируемой стратегии промптинга.

Результаты подтверждают, что неопытные злоумышленники могут получать от моделей ответы, пригодные для использования, что подтверждает опасения по поводу доступности атак типа взлома.