शोधकर्ता STEER (Safety Targeted Embedding Exploit via Refinement) पेश करते हैं, एक ग्रेडिएंट-मार्गदर्शित हमला जो यह प्रकट करता है कि बड़ी भाषा मॉडल के लिए सुरक्षा प्रशिक्षण कम-संसाधन भाषाओं और कोड-स्विचिंग पर सामान्यीकृत करने में विफल रहता है। विधि अस्वीकार व्यवहार को चलाने वाले शब्दों की पहचान करती है और हानिकारक इरादे को बनाए रखते हुए सुरक्षा तंत्र को दबाने के लिए उन्हें कम-संसाधन भाषाओं में पुनरावृत्ति से अनुवादित करती है।
- छह ओपन-सोर्स 8B-पैरामीटर मॉडल पर, STEER JailbreakBench पर 93.0% तक और AdvBench पर 96.7% तक हमला सफलता दर प्राप्त करता है।
- तकनीक यादृच्छिक कोड-स्विचिंग और Greedy Coordinate Gradient (GCG) विधियों से बेहतर प्रदर्शन करती है।
- STEER द्वारा उत्पन्न प्रॉम्प्ट GPT-4o-mini पर स्थानांतरित हो जाते हैं, लक्ष्य मॉडल तक पहुंच के बिना 35.5% हमला सफलता दर प्राप्त करते हुए।
निष्कर्ष दर्शाते हैं कि मुख्य रूप से अंग्रेजी पर संरेखित सुरक्षा तंत्र को बहुभाषी इनपुट पर सामान्यीकृत माना नहीं जा सकता है, जो संरेखण के दौरान व्यापक कवरेज और वितरण से बाहर इनपुट की स्पष्ट पहचान की आवश्यकता की ओर इशारा करता है।