Les chercheurs présentent STEER (Safety Targeted Embedding Exploit via Refinement), une attaque guidée par le gradient qui révèle comment l'entraînement à la sécurité des grands modèles de langage échoue à se généraliser aux langues à faibles ressources et au code-switching. La méthode identifie les mots qui entraînent un comportement de refus et les traduit itérativement dans des langues à faibles ressources pour supprimer les mécanismes de sécurité tout en préservant l'intention nuisible.

  • Sur six modèles open-source de 8 milliards de paramètres, STEER atteint des taux de réussite d'attaque allant jusqu'à 93,0 % sur JailbreakBench et 96,7 % sur AdvBench.
  • La technique surpasse le code-switching aléatoire et les méthodes Greedy Coordinate Gradient (GCG).
  • Les prompts générés par STEER sont transférables à GPT-4o-mini, atteignant un taux de réussite d'attaque de 35,5 % sans accès au modèle cible.

Ces résultats démontrent que les mécanismes de sécurité principalement alignés sur l'anglais ne peuvent pas être supposés se généraliser aux entrées multilingues, suggérant la nécessité d'une couverture plus large lors de l'alignement et d'une détection explicite des entrées hors distribution.