आत्म-निरीक्षण युग्मन: स्थिर पर्यवेक्षण के बावजूद आत्म-व्याख्या प्रशिक्षण व्यवहारिक परिवर्तन को ट्रैक करता है

अनुसंधान से पता चलता है कि स्थिर प्रति-वास्तविक व्याख्याओं का उपयोग करके अपनी भविष्यवाणियों की व्याख्या करने के लिए प्रशिक्षित भाषा मॉडल अक्सर प्रशिक्षण लक्ष्यों के बजाय अपने स्वयं के वर्तमान व्यवहार के साथ सटीक आत्म-निरीक्षण उत्पन्न करते हैं। यह "आत्म-निरीक्षण युग्मन" तब होता है जब व्याख्या प्रशिक्षण बदलते मॉडल व्यवहार से सहसंबद्ध बना रहता है, जिससे प्रणाली बिना अपडेट किए गए पर्यवेक्षण के परिवर्तनों को ट्रैक कर सकती है।

मॉडल ऐसे व्याख्याएं उत्पन्न करते हैं जो स्थिर प्रशिक्षण डेटा की तुलना में अपने वर्तमान व्यवहार के साथ अधिक अनुकूलित होती हैं, जो पूर्व चेकपॉइंट्स या समान मॉडलों से व्युत्पन्न होता है।
व्याख्या प्रशिक्षण अन्य पोस्ट-प्रशिक्षण उद्देश्यों के साथ समवर्ती रूप से चलता है तब भी आत्म-निरीक्षण युग्मन व्यवहारिक बदलावों को ट्रैक करता है।
इस घटना का अवलोकन कई कार्यों में किया गया है, जिसमें सिसोफेन्सी (सिरपीतना) और अस्वीकृति शामिल हैं, और यह लेबल शोर के प्रति मजबूत बना रहता है।

निष्कर्ष संकेत करते हैं कि प्रति-वास्तविक व्याख्याओं के स्थिर डेटासेट आत्म-निरीक्षण के लिए स्केलेबल और सामान्यीकरण योग्य पोस्ट-प्रशिक्षण सिग्नल प्रदान कर सकते हैं।