تدريب طبقة محوّل واحدة يستعيد معظم مكاسب التعلم المعزز الكامل المعلمة

دراسة منهجية تتحدى الافتراض بأن جميع الطبقات تساهم بالتساوي في ما بعد التدريب بالتعلم المعزز (RL) في النماذج اللغوية الكبيرة. وجد المؤلفون أن تدريب طبقة محوّل واحدة يمكن أن يستعيد معظم المكاسب التي حققها التعلم المعزز الكامل المعلمة، وأحيانًا يتجاوزها.

قدم الباحثون "مساهمة الطبقة" لقياس جزء تحسين RL الكامل الذي يتم استعادته عن طريق تدريب طبقة بمعزل عن غيرها.
عبر سبعة نماذج من عائلتي Qwen3 وQwen2.5، باستخدام خوارزميات GRPO وGiGPO وDr. GRPO، كانت المكاسب مركزة للغاية في مجموعة فرعية صغيرة أو طبقة واحدة.
تتركز الطبقات ذات المساهمة العالية باستمرار في وسط كومة المحولات، بينما تساهم طبقات الإدخال والإخراج بشكل أقل بكثير.
ظلت ترتيبات الطبقات مرتبطة ارتباطًا قويًا عبر مجموعات البيانات والمهام وعائلات النماذج وخوارزميات RL.

تشير هذه النتيجة إلى أن تكيف RL ليس موزعًا بالتساوي، بل هو مركز للغاية داخل مناطق هيكلية محددة من النموذج.