Pembelajaran Penguatan dengan Umpan Balik Metakognitif Meningkatkan Ekspresi Ketidakpastian LLM

Peneliti memperkenalkan pembelajaran penguatan dengan umpan balik metakognitif (RLMF) untuk mengatasi kekurangan sistemik pada model bahasa besar, seperti halusinasi dengan keyakinan tinggi dan representasi yang salah terhadap ketidakpastian internal. Metode ini menyempurnakan peringkat penyelesaian selama optimasi preferensi berdasarkan kualitas penilaian diri model terhadap kinerjanya.

RLMF mengoperasionalkan metakognisi dengan menggunakan penilaian diri untuk menyempurnakan peringkat penyelesaian selama optimasi preferensi.
Mekanisme pemilihan data metakognitif yang baru mengidentifikasi contoh pelatihan bernilai tinggi, melampaui pembelajaran aktif naif.
Pendekatan ini menargetkan kalibrasi setia (FC) untuk menyelaraskan keyakinan yang diekspresikan dengan ketidakpastian intrinsik melalui proses terputus dua tahap.
RLMF melampaui pembelajaran penguatan standar hingga 63% sambil mempertahankan akurasi pada berbagai tugas.

Paradigma ini meningkatkan metakognisi dan penyesuaian LLM, menunjukkan bahwa kinerja metakognitif berfungsi sebagai sinyal pembelajaran penguatan yang efektif untuk mengatasi batas metode umpan balik intrinsik sebelumnya.