छोटे भाषा मॉडलों के अंदर कार्यात्मक शासनों की खोज

यह स्वतंत्र शोध परियक्ति छह छोटे और मध्यम आकार के भाषा मॉडलों की आंतरिक गतिशीलता का वर्णन करता है, जो मानक आउटपुट बेंचमार्क्स पर निर्भर करने के बजाय इनफरेंस के दौरान छिपी हुई निरूपणों के विकास का विश्लेषण करती है। अध्ययन विभिन्न वास्तुकलाओं के बीच पुनरुत्पादित पैटर्न की पहचान करने के लिए गतिशील व्यवहार, कार्यात्मक संगठन और निरूपण ज्यामिति की जांच करता है।

विश्लेषण GPT-2, DistilGPT2, OPT-125M, Qwen2.5-0.5B-Instruct, TinyLlama-1.1B-Chat, Phi-1.5 और Llama-3.2-1B को कवर करता है।
मॉडल लगातार दो क्लस्टर में अलग हो जाते हैं: GPT-2 और DistilGPT2 एक समूह बनाते हैं, जबकि वास्तुकला के अंतर के बावजूद शेष पांच मॉडल दूसरा समूह बनाते हैं।
कार्यात्मक जानकारी छिपी हुई निरूपणों से रैखिक रूप से डीकोडेबल होती है, परतों के बीच भिन्न कार्यात्मक क्षमता होती है जो समान निरंतर गहराई पर संरेखित नहीं होती है।
लंबवत घूर्णन डीकोडेबिलिटी को लगभग पूरी तरह से बनाए रखते हैं, जिसका सुझाव है कि कार्यात्मक संकेत विशिष्ट एम्बेडिंग आयामों के बजाय निरूपण स्थान की ज्यामिति पर निर्भर करते हैं।

शोध का उद्देश्य अवलोकन से कारण परीक्षण की ओर बढ़ना है ताकि यह निर्धारित किया जा सके कि क्या विशिष्ट कार्यात्मक क्षेत्रों में विक्षोभ डౌनस्ट्रीम व्यवहार को बदल देता है और ये संगठनात्मक सिद्धांत मॉडल के आकार के साथ कैसे स्केल होते हैं।