研究人员介绍了STEER(Safety Targeted Embedding Exploit via Refinement),这是一种梯度引导的攻击方法,揭示了大型语言模型的安全训练未能泛化到低资源语言和代码切换场景。该方法识别出驱动拒绝行为的单词,并迭代地将其翻译成低资源语言,从而在保留有害意图的同时抑制安全机制。

  • 在六个开源8B参数模型上,STEER在JailbreakBench上的攻击成功率高达93.0%,在AdvBench上达到96.7%。
  • 该技术优于随机代码切换和Greedy Coordinate Gradient (GCG)方法。
  • STEER生成的提示词可迁移至GPT-4o-mini,在无法访问目标模型的情况下实现了35.5%的攻击成功率。

研究结果表明,主要基于英语对齐的安全机制不能假设能泛化到多语言输入,这表明在需要对齐过程中进行更广泛的覆盖,并显式检测分布外输入。