शोधकर्ताओं ने बड़े भाषा मॉडलों में तंत्रगत कमियों, जैसे उच्च आत्मविश्वास के साथ भ्रम और आंतरिक अनिश्चितता का गलत प्रतिनिधित्व करने की समस्या को दूर करने के लिए मेटाकोग्निटिव फीडबैक के साथ पुनर्बल सीखना (RLMF) पेश किया है। विधि मॉडल के प्रदर्शन के अपने आत्म-मूल्यांकन की गुणवत्ता के आधार पर प्राथमिकता अनुकूलन के दौरान पूर्णता रैंकिंग को परिष्कृत करती है।

  • RLMF, प्राथमिकता अनुकूलन के दौरान पूर्णता रैंकिंग को परिष्कृत करने के लिए आत्म-मूल्यांकन का उपयोग करके मेटाकोग्निशन को संचालित करता है।
  • एक नवीन मेटाकोग्निटिव डेटा चयन तंत्र उच्च-मूल्य प्रशिक्षण उदाहरणों की पहचान करता है, जो निष्क्रिय सक्रिय सीखने से बेहतर है।
  • दृष्टिकोण दो-चरणीय अलग प्रक्रिया के माध्यम से अभिव्यक्त आत्मविश्वास को अंतर्निहित अनिश्चितता से मेल करने के लिए विश्वसनीय कैलिब्रेशन (FC) को लक्षित करता है।
  • RLMF विभिन्न कार्यों पर सटीकता को बनाए रखते हुए मानक पुनर्बल सीखने से 63% तक बेहतर प्रदर्शन करता है।

यह परिप्रेक्ष्य LLM की मेटाकोग्निशन और अलाइनमेंट को बढ़ावा देता है, यह सुझाव देता है कि मेटाकोग्निटिव प्रदर्शन पूर्व के आंतरिक फीडबैक विधियों की सीमाओं को पार करने के लिए एक प्रभावी पुनर्बल सीखने संकेत के रूप में कार्य करता है।