एक अनुभवजन्य अध्ययन ने पाया कि एक ट्रांसफॉर्मर मॉडल से दूसरे में MLP वजन को प्रक्षेपित करना अर्थवैज्ञानिक क्षमता को स्थानांतरित करने में विफल रहा। प्रत्येक परीक्षण किए गए विकल्प ने संशोधित नहीं किए गए होस्ट मॉडल की तुलना में खराब प्रदर्शन किया, जो वजन प्रक्षेपण में एक संरचनात्मक सीमा को दर्शाता है। परिणाम बेंचमार्क के आधार पर मॉडल क्षमताओं के बारे में सार्वजनिक दावों को चुनौती देते हैं, यह दिखाते हुए कि ऐसे दावे वास्तविक आंतरिक वजन ज्यामिति को प्रतिबिंबित नहीं करते हैं।
क्षमता वजन में नहीं है: MLP वजन प्रक्षेपण पर एक अनुभवजन्य नकारात्मक परिणाम
अनुवादित English → हिन्दी