연구자들은 STEER(Safety Targeted Embedding Exploit via Refinement)를 소개했다. 이는 그래디언트 유도 공격으로, 대규모 언어 모델의 안전 훈련이 저자원 언어와 코드 스위칭으로 일반화되지 않는다는 것을 드러낸다. 이 방법은 거절 행동을 유발하는 단어를 식별하고, 이를 반복적으로 저자원 언어로 번역하여 해로운 의도는 유지한 채 안전 메커니즘을 억제한다.
- 여섯 개의 오픈소스 8B 파라미터 모델에 걸쳐 STEER는 JailbreakBench에서 최대 93.0%, AdvBench에서 96.7%의 공격 성공률을 달성했다.
- 이 기법은 무작위 코드 스위칭과 Greedy Coordinate Gradient(GCG) 방법보다 우수하다.
- STEER가 생성한 프롬프트는 GPT-4o-mini로 이전 가능하며, 대상 모델에 접근하지 않고도 35.5%의 공격 성공률을 달성했다.
이 결과는 주로 영어에 맞춰진 안전 메커니즘이 다국어 입력으로 일반화된다고 가정할 수 없음을 보여주며, 정렬 과정에서 더 넓은 커버리지와 분포 밖 입력의 명시적 탐지가 필요함을 시사한다.