Взлом для среднестатистического пользователя: выбор оптимальных взломов с помощью алгоритмов бандитов
В данном исследовании изучается возможность успешного взлома больших языковых моделей неопытными злоумышленниками путем использования алгоритмов бандитов для выбора оптимальных атак и улучшения запросов. Авторы предлагают новую стратегию атаки на основе многоармочного бандита, позволяющую эффективно обучаться лучшему взлому из большого набора вариантов через зашумленное исследование.