Para peneliti memperkenalkan STEER (Safety Targeted Embedding Exploit via Refinement), sebuah serangan yang dipandu gradien yang mengungkapkan bagaimana pelatihan keamanan untuk model bahasa besar gagal bergeneralisasi ke bahasa dengan sumber daya rendah dan code-switching. Metode ini mengidentifikasi kata-kata yang mendorong perilaku penolakan dan menerjemahkannya secara iteratif ke dalam bahasa dengan sumber daya rendah untuk menekan mekanisme keamanan sambil mempertahankan niat berbahaya.
- Di enam model open-source berukuran 8 miliar parameter, STEER mencapai tingkat keberhasilan serangan hingga 93,0% pada JailbreakBench dan 96,7% pada AdvBench.
- Teknik ini mengungguli code-switching acak dan metode Greedy Coordinate Gradient (GCG).
- Prompt yang dihasilkan oleh STEER dapat ditransfer ke GPT-4o-mini, mencapai tingkat keberhasilan serangan sebesar 35,5% tanpa akses ke model target.
Temuan ini menunjukkan bahwa mekanisme keamanan yang terutama disesuaikan dengan bahasa Inggris tidak dapat diasumsikan bergeneralisasi melintasi input multibahasa, menyarankan perlunya cakupan yang lebih luas selama penyesuaian dan deteksi eksplisit input di luar distribusi.