Исследователи предлагают обучение с подкреплением с метакогнитивной обратной связью (RLMF) для устранения системных недостатков больших языковых моделей, таких как галлюцинации с высокой уверенностью и искажение внутренней неопределённости. Метод уточняет ранжирование завершений в процессе оптимизации предпочтений на основе качества самооценок модели.
- RLMF реализует метакогницию, используя самооценки для уточнения ранжирования завершений во время оптимизации предпочтений.
- Новый механизм отбора метакогнитивных данных выявляет высокоценные обучающие примеры, превосходя наивное активное обучение.
- Подход направлен на достоверную калибровку (FC) для согласования выраженной уверенности с внутренней неопределённостью через двухэтапный развязанный процесс.
- RLMF превосходит стандартное обучение с подкреплением до 63%, сохраняя точность на разнообразных задачах.
Эта парадигма усиливает метакогницию и выравнивание LLM, предполагая, что метакогнитивная производительность служит эффективным сигналом обучения с подкреплением для преодоления ограничений предыдущих методов внутренней обратной связи.