Исследователи выявили "путаницу ролей" как ключевую уязвимость в языковых моделях, при которой модели неправильно интерпретируют ввод пользователя из-за стилистических сходств с внутренними метками ролей. Устранение стиля пользовательских промптов снижает успешность атаки с 61% до 10%, что показывает, что незначительные изменения в текстовом стиле могут кардинально изменять поведение модели, даже если содержимое кажется идентичным человеку.
Внедрение промпта как путаница ролей
Переведено с English → Русский