STEER 공격이 저자원 언어에서 LLM 안전 격차를 노출

연구자들은 STEER(Safety Targeted Embedding Exploit via Refinement)를 소개했다. 이는 그래디언트 유도 공격으로, 대규모 언어 모델의 안전 훈련이 저자원 언어와 코드 스위칭으로 일반화되지 않는다는 것을 드러낸다. 이 방법은 거절 행동을 유발하는 단어를 식별하고, 이를 반복적으로 저자원 언어로 번역하여 해로운 의도는 유지한 채 안전 메커니즘을 억제한다.

여섯 개의 오픈소스 8B 파라미터 모델에 걸쳐 STEER는 JailbreakBench에서 최대 93.0%, AdvBench에서 96.7%의 공격 성공률을 달성했다.
이 기법은 무작위 코드 스위칭과 Greedy Coordinate Gradient(GCG) 방법보다 우수하다.
STEER가 생성한 프롬프트는 GPT-4o-mini로 이전 가능하며, 대상 모델에 접근하지 않고도 35.5%의 공격 성공률을 달성했다.

이 결과는 주로 영어에 맞춰진 안전 메커니즘이 다국어 입력으로 일반화된다고 가정할 수 없음을 보여주며, 정렬 과정에서 더 넓은 커버리지와 분포 밖 입력의 명시적 탐지가 필요함을 시사한다.

벤치마크	모델	점수
JailbreakBench	STEER (applied to six open-source 8B-parameter models)	93%
JailbreakBench	GPT-4o-mini	35.5%

벤치마크