研究人员引入了带有元认知反馈的强化学习(RLMF),以解决大型语言模型中的系统性缺陷,例如高度自信地产生幻觉和错误表征内部不确定性。该方法基于模型对性能的自我判断质量,在偏好优化期间完善完成结果的排名。

  • RLMF 通过使用自我判断来完善偏好优化期间的完成结果排名,从而将元认知操作化。
  • 一种新颖的元认知数据选择机制识别出高价值训练样本,优于朴素主动学习。
  • 该方法旨在通过两阶段解耦过程实现忠实校准(FC),使表达的置信度与内在不确定性保持一致。
  • RLMF 在保持各种任务准确性的同时,比标准强化学习高出高达 63%。

这一范式增强了大语言模型的元认知和对齐能力,表明元认知性能可作为有效的强化学习信号,以克服先前内在反馈方法的局限。