메타인지 피드백을 활용한 강화 학습이 LLM의 불확실성 표현을 개선

연구자들은 대규모 언어 모델의 환각(높은 확신 하에 발생) 및 내부 불확실성의 오표현과 같은 체계적 결함을 해결하기 위해 메타인지 피드백 강화 학습(RLMF)을 도입했다. 이 방법은 모델의 성능에 대한 자기 판단의 품질을 기반으로 선호도 최적화 중 완성 후보 순위를 정교하게 조정한다.

RLMF는 선호도 최적화 중 완성 후보 순위를 자기 판단으로 정교화함으로써 메타인지 기능을 구현한다.
새로운 메타인지 데이터 선택 메커니즘은 고가치 훈련 예제를 식별하며, 단순 능동 학습보다 우수한 성능을 보인다.
이 접근 방식은 2단계 분리 과정을 통해 표현된 확신과 내재적 불확실성을 일치시키는 충실한 교정(FC)을 목표로 한다.
RLMF는 다양한 작업에서 정확도를 유지하면서 표준 강화 학습 대비 최대 63% 향상된다.

이 패러다임은 LLM의 메타인지와 정렬을 향상시키며, 메타인지 성능이 기존 내재적 피드백 방법의 한계를 극복하기 위한 효과적인 강화 학습 신호로 작용할 수 있음을 시사한다.