Исследователи представляют STEER (Safety Targeted Embedding Exploit via Refinement), атаку, направляемую градиентами, которая показывает, как обучение безопасности больших языковых моделей не обобщается на языки с малым объемом данных и код-свитчинг. Метод выявляет слова, определяющие поведение отказа, и итеративно переводит их на языки с малым объемом данных для подавления механизмов безопасности при сохранении вредоносного намерения.

  • На шести моделях с открытым исходным кодом размером 8B параметров STEER достигает успешности атаки до 93.0% на JailbreakBench и 96.7% на AdvBench.
  • Техника превосходит случайный код-свитчинг и методы Greedy Coordinate Gradient (GCG).
  • Промпты, сгенерированные STEER, переносятся на GPT-4o-mini, достигая успешности атаки 35.5% без доступа к целевой модели.

Результаты показывают, что механизмы безопасности, выровненные преимущественно на английском языке, не могут считаться обобщаемыми для многоязычных входных данных, что указывает на необходимость более широкого покрытия при выравнивании и явного обнаружения распределений за пределами обучающей выборки.