STEER攻撃が低資源言語におけるLLMの安全性ギャップを暴露

研究者らはSTEER（Safety Targeted Embedding Exploit via Refinement）を発表した。これは勾配誘導型の攻撃手法であり、大規模言語モデルの安全訓練が低資源言語やコードスイッチングに一般化しないことを明らかにする。この手法は拒否行動を駆動する単語を特定し、それらを反復的に低資源言語へ翻訳することで、有害な意図を保持しつつ安全メカニズムを抑制する。

6つのオープンソース8Bパラメータモデルにおいて、STEERはJailbreakBenchで最大93.0%、AdvBenchで96.7%の攻撃成功率を達成した。
この手法はランダムなコードスイッチングやGreedy Coordinate Gradient（GCG）手法を上回る。
STEERによって生成されたプロンプトはGPT-4o-miniへ移行可能であり、ターゲットモデルへのアクセスなしに35.5%の攻撃成功率を達成した。

これらの知見は、主に英語に整列された安全メカニズムがマルチリンガル入力にわたって一般化すると仮定できないことを示しており、整列時のより広範なカバーと分布外入力の明示的な検出の必要性を示唆している。

ベンチマーク	モデル	スコア
JailbreakBench	STEER (applied to six open-source 8B-parameter models)	93%
JailbreakBench	GPT-4o-mini	35.5%

ベンチマーク