एक व्यवस्थित अध्ययन इस धारणा को चुनौती देता है कि सभी परतें बड़े भाषा मॉडलों में प्रशिक्षण के बाद प्रबल सीखने (RL) में समान योगदान देती हैं। लेखकों का पता चलता है कि एकल ट्रान्सफॉर्मर परत का प्रशिक्षण पूर्ण-पैरामीटर RL द्वारा प्राप्त लाभों का अधिकांश हिस्सा पुनर्स्थापित कर सकता है, और कभी-कभी इसे पार भी कर सकता है।

  • शोधकर्ताओं ने एकल परत के अलग से प्रशिक्षण द्वारा पुनर्स्थापित पूर्ण RL सुधार के अंश को मापने के लिए "परत योगदान" का परिचय दिया।
  • Qwen3 और Qwen2.5 परिवारों के सात मॉडलों पर, GRPO, GiGPO और Dr. GRPO एल्गोरिदम का उपयोग करते हुए, लाभ एक छोटे उपसमुच्चय या एकल परतों में अत्यधिक केंद्रित थे।
  • उच्च-योगदान वाली परतें लगातार ट्रान्सफॉर्मर स्टैक के मध्य में केंद्रित होती हैं, जबकि इनपुट और आउटपुट परतें काफी कम योगदान देती हैं।
  • डेटासेटों, कार्यों, मॉडल परिवारों और RL एल्गोरिदम के बीच परत रैंकिंग मजबूती से सहसंबद्ध बनी रही।

यह निष्कर्ष सुझाव देता है कि RL अनुकूलन समान रूप से वितरित नहीं है, बल्कि मॉडल की विशिष्ट संरचनात्मक क्षेत्रों के भीतर अत्यधिक स्थानीयकृत है।