Исследователи предлагают обучение с подкреплением с метакогнитивной обратной связью (RLMF) для устранения системных недостатков больших языковых моделей, таких как галлюцинации с высокой уверенностью и искажение внутренней неопределённости. Метод уточняет ранжирование завершений в процессе оптимизации предпочтений на основе качества самооценок модели.

  • RLMF реализует метакогницию, используя самооценки для уточнения ранжирования завершений во время оптимизации предпочтений.
  • Новый механизм отбора метакогнитивных данных выявляет высокоценные обучающие примеры, превосходя наивное активное обучение.
  • Подход направлен на достоверную калибровку (FC) для согласования выраженной уверенности с внутренней неопределённостью через двухэтапный развязанный процесс.
  • RLMF превосходит стандартное обучение с подкреплением до 63%, сохраняя точность на разнообразных задачах.

Эта парадигма усиливает метакогницию и выравнивание LLM, предполагая, что метакогнитивная производительность служит эффективным сигналом обучения с подкреплением для преодоления ограничений предыдущих методов внутренней обратной связи.