Ataque STEER expõe lacunas de segurança de LLMs em idiomas com poucos recursos

Pesquisadores introduzem o STEER (Safety Targeted Embedding Exploit via Refinement), um ataque guiado por gradientes que revela como o treinamento de segurança para modelos de linguagem grandes falha em generalizar para idiomas com poucos recursos e alternância de código. O método identifica palavras que impulsionam o comportamento de recusa e as traduz iterativamente para idiomas com poucos recursos para suprimir os mecanismos de segurança enquanto preserva a intenção prejudicial.

Em seis modelos de código aberto de 8B parâmetros, o STEER alcança taxas de sucesso de ataque de até 93.0% no JailbreakBench e 96.7% no AdvBench.
A técnica supera a alternância de código aleatória e os métodos Greedy Coordinate Gradient (GCG).
Prompts gerados pelo STEER são transferidos para o GPT-4o-mini, alcançando uma taxa de sucesso de ataque de 35.5% sem acesso ao modelo alvo.

Os achados demonstram que os mecanismos de segurança alinhados principalmente em inglês não podem ser assumidos como generalizáveis para entradas multilíngues, sugerindo a necessidade de uma cobertura mais ampla durante o alinhamento e a detecção explícita de entradas fora da distribuição.

Benchmark	Modelo	Pontuação
JailbreakBench	STEER (applied to six open-source 8B-parameter models)	93%
JailbreakBench	GPT-4o-mini	35.5%

Benchmarks