يقدم الباحثون التعلم المعزز بملاحظات ما وراء المعرفة (RLMF) لمعالجة النواقص النظامية في النماذج اللغوية الكبيرة، مثل الهلوسة بثقة عالية وتمثيل خاطئ لعدم اليقين الداخلي. تقوم الطريقة بتحسين ترتيب الإكمال أثناء تحسين التفضيلات بناءً على جودة أحكام النموذج الذاتية لأدائه.

  • يُشغّل RLMF ما وراء المعرفة من خلال استخدام الأحكام الذاتية لتحسين ترتيب الإكمال أثناء تحسين التفضيلات.
  • تحدد آلية اختيار البيانات ما وراء المعرفة الجديدة أمثلة تدريب عالية القيمة، متفوقة على التعلم النشط البسيط.
  • يستهدف النهج المعايرة الوفيّة (FC) لمواءمة الثقة المعبر عنها مع عدم اليقين الجوهري عبر عملية مفككة مكونة من مرحلتين.
  • يتفوق RLMF على التعلم المعزز القياسي بنسبة تصل إلى 63% مع الحفاظ على الدقة في مهام متنوعة.

يعزز هذا النموذج ما وراء المعرفة ومواءمة النماذج اللغوية الكبيرة، مما يشير إلى أن أداء ما وراء المعرفة يعمل كإشارة فعالة للتعلم المعزز للتغلب على حدود طرق التغذية الراجعة الداخلية السابقة.