क्षमता वजन में नहीं है: MLP वजन प्रक्षेपण पर एक अनुभवजन्य नकारात्मक परिणाम

एक अनुभवजन्य अध्ययन ने पाया कि एक ट्रांसफॉर्मर मॉडल से दूसरे में MLP वजन को प्रक्षेपित करना अर्थवैज्ञानिक क्षमता को स्थानांतरित करने में विफल रहा। प्रत्येक परीक्षण किए गए विकल्प ने संशोधित नहीं किए गए होस्ट मॉडल की तुलना में खराब प्रदर्शन किया, जो वजन प्रक्षेपण में एक संरचनात्मक सीमा को दर्शाता है। परिणाम बेंचमार्क के आधार पर मॉडल क्षमताओं के बारे में सार्वजनिक दावों को चुनौती देते हैं, यह दिखाते हुए कि ऐसे दावे वास्तविक आंतरिक वजन ज्यामिति को प्रतिबिंबित नहीं करते हैं।