Pesquisadores introduzem o STEER (Safety Targeted Embedding Exploit via Refinement), um ataque guiado por gradientes que revela como o treinamento de segurança para modelos de linguagem grandes falha em generalizar para idiomas com poucos recursos e alternância de código. O método identifica palavras que impulsionam o comportamento de recusa e as traduz iterativamente para idiomas com poucos recursos para suprimir os mecanismos de segurança enquanto preserva a intenção prejudicial.

  • Em seis modelos de código aberto de 8B parâmetros, o STEER alcança taxas de sucesso de ataque de até 93.0% no JailbreakBench e 96.7% no AdvBench.
  • A técnica supera a alternância de código aleatória e os métodos Greedy Coordinate Gradient (GCG).
  • Prompts gerados pelo STEER são transferidos para o GPT-4o-mini, alcançando uma taxa de sucesso de ataque de 35.5% sem acesso ao modelo alvo.

Os achados demonstram que os mecanismos de segurança alinhados principalmente em inglês não podem ser assumidos como generalizáveis para entradas multilíngues, sugerindo a necessidade de uma cobertura mais ampla durante o alinhamento e a detecção explícita de entradas fora da distribuição.