يقدم الباحثون STEER (Safety Targeted Embedding Exploit via Refinement)، وهو هجوم موجه بالتدرج يكشف كيف يفشل تدريب الأمان للنماذج اللغوية الكبيرة في التعميم على اللغات منخفضة الموارد والتبديل بين اللغات. تحدد الطريقة الكلمات التي تدفع سلوك الرفض وتترجمها تكرارياً إلى لغات منخفضة الموارد لكبت آليات الأمان مع الحفاظ على النية الضارة.
- عبر ستة نماذج مفتوحة المصدر بحجم 8 مليار معلمة، حقق STEER معدلات نجاح هجوم تصل إلى 93.0% على JailbreakBench و96.7% على AdvBench.
- تتفوق التقنية على التبديل العشوائي بين اللغات وطرق Greedy Coordinate Gradient (GCG).
- تنتقل الإشارات الناتجة عن STEER إلى GPT-4o-mini، محققة معدل نجاح هجوم بنسبة 35.5% دون الوصول إلى النموذج المستهدف.
تُظهر النتائج أن آليات الأمان الموضوعة بشكل أساسي على اللغة الإنجليزية لا يمكن افتراض أنها تتعمم عبر المدخلات متعددة اللغات، مما يشير إلى الحاجة إلى تغطية أوسع أثناء المحاذاة واكتشاف صريح للمدخلات خارج التوزيع.