Обучение с подкреплением с метакогнитивной обратной связью улучшает выражение неопределённости в LLM

Исследователи предлагают обучение с подкреплением с метакогнитивной обратной связью (RLMF) для устранения системных недостатков больших языковых моделей, таких как галлюцинации с высокой уверенностью и искажение внутренней неопределённости. Метод уточняет ранжирование завершений в процессе оптимизации предпочтений на основе качества самооценок модели.

RLMF реализует метакогницию, используя самооценки для уточнения ранжирования завершений во время оптимизации предпочтений.
Новый механизм отбора метакогнитивных данных выявляет высокоценные обучающие примеры, превосходя наивное активное обучение.
Подход направлен на достоверную калибровку (FC) для согласования выраженной уверенности с внутренней неопределённостью через двухэтапный развязанный процесс.
RLMF превосходит стандартное обучение с подкреплением до 63%, сохраняя точность на разнообразных задачах.

Эта парадигма усиливает метакогницию и выравнивание LLM, предполагая, что метакогнитивная производительность служит эффективным сигналом обучения с подкреплением для преодоления ограничений предыдущих методов внутренней обратной связи.