Атака STEER выявляет пробелы в безопасности LLM для языков с малым объемом данных

Исследователи представляют STEER (Safety Targeted Embedding Exploit via Refinement), атаку, направляемую градиентами, которая показывает, как обучение безопасности больших языковых моделей не обобщается на языки с малым объемом данных и код-свитчинг. Метод выявляет слова, определяющие поведение отказа, и итеративно переводит их на языки с малым объемом данных для подавления механизмов безопасности при сохранении вредоносного намерения.

На шести моделях с открытым исходным кодом размером 8B параметров STEER достигает успешности атаки до 93.0% на JailbreakBench и 96.7% на AdvBench.
Техника превосходит случайный код-свитчинг и методы Greedy Coordinate Gradient (GCG).
Промпты, сгенерированные STEER, переносятся на GPT-4o-mini, достигая успешности атаки 35.5% без доступа к целевой модели.

Результаты показывают, что механизмы безопасности, выровненные преимущественно на английском языке, не могут считаться обобщаемыми для многоязычных входных данных, что указывает на необходимость более широкого покрытия при выравнивании и явного обнаружения распределений за пределами обучающей выборки.

Бенчмарк	Модель	Результат
JailbreakBench	STEER (applied to six open-source 8B-parameter models)	93%
JailbreakBench	GPT-4o-mini	35.5%

Бенчмарки