STEER हमला LLM सुरक्षा में कम-संसाधन भाषाओं के लिए अंतराल को उजागर करता है

शोधकर्ता STEER (Safety Targeted Embedding Exploit via Refinement) पेश करते हैं, एक ग्रेडिएंट-मार्गदर्शित हमला जो यह प्रकट करता है कि बड़ी भाषा मॉडल के लिए सुरक्षा प्रशिक्षण कम-संसाधन भाषाओं और कोड-स्विचिंग पर सामान्यीकृत करने में विफल रहता है। विधि अस्वीकार व्यवहार को चलाने वाले शब्दों की पहचान करती है और हानिकारक इरादे को बनाए रखते हुए सुरक्षा तंत्र को दबाने के लिए उन्हें कम-संसाधन भाषाओं में पुनरावृत्ति से अनुवादित करती है।

छह ओपन-सोर्स 8B-पैरामीटर मॉडल पर, STEER JailbreakBench पर 93.0% तक और AdvBench पर 96.7% तक हमला सफलता दर प्राप्त करता है।
तकनीक यादृच्छिक कोड-स्विचिंग और Greedy Coordinate Gradient (GCG) विधियों से बेहतर प्रदर्शन करती है।
STEER द्वारा उत्पन्न प्रॉम्प्ट GPT-4o-mini पर स्थानांतरित हो जाते हैं, लक्ष्य मॉडल तक पहुंच के बिना 35.5% हमला सफलता दर प्राप्त करते हुए।

निष्कर्ष दर्शाते हैं कि मुख्य रूप से अंग्रेजी पर संरेखित सुरक्षा तंत्र को बहुभाषी इनपुट पर सामान्यीकृत माना नहीं जा सकता है, जो संरेखण के दौरान व्यापक कवरेज और वितरण से बाहर इनपुट की स्पष्ट पहचान की आवश्यकता की ओर इशारा करता है।

Benchmark	मॉडल	स्कोर
JailbreakBench	STEER (applied to six open-source 8B-parameter models)	93%
JailbreakBench	GPT-4o-mini	35.5%

Benchmarks