带有元认知反馈的强化学习改善了大语言模型的不确定性表达

研究人员引入了带有元认知反馈的强化学习（RLMF），以解决大型语言模型中的系统性缺陷，例如高度自信地产生幻觉和错误表征内部不确定性。该方法基于模型对性能的自我判断质量，在偏好优化期间完善完成结果的排名。

这一范式增强了大语言模型的元认知和对齐能力，表明元认知性能可作为有效的强化学习信号，以克服先前内在反馈方法的局限。