Los investigadores presentan STEER (Safety Targeted Embedding Exploit via Refinement), un ataque guiado por gradientes que revela cómo el entrenamiento de seguridad para modelos de lenguaje grandes no se generaliza a idiomas con pocos recursos y al cambio de código. El método identifica las palabras que impulsan el comportamiento de rechazo y las traduce iterativamente a idiomas con pocos recursos para suprimir los mecanismos de seguridad mientras se preserva la intención dañina.

  • En seis modelos de 8B parámetros de código abierto, STEER logra tasas de éxito del ataque de hasta 93.0% en JailbreakBench y 96.7% en AdvBench.
  • La técnica supera al cambio de código aleatorio y a los métodos Greedy Coordinate Gradient (GCG).
  • Los prompts generados por STEER se transfieren a GPT-4o-mini, logrando una tasa de éxito del ataque del 35.5% sin acceso al modelo objetivo.

Los hallazgos demuestran que los mecanismos de seguridad alineados principalmente en inglés no pueden asumirse como generalizables para entradas multilingües, lo que sugiere la necesidad de una cobertura más amplia durante la alineación y la detección explícita de entradas fuera de distribución.