연구자들은 대규모 언어 모델의 환각(높은 확신 하에 발생) 및 내부 불확실성의 오표현과 같은 체계적 결함을 해결하기 위해 메타인지 피드백 강화 학습(RLMF)을 도입했다. 이 방법은 모델의 성능에 대한 자기 판단의 품질을 기반으로 선호도 최적화 중 완성 후보 순위를 정교하게 조정한다.
- RLMF는 선호도 최적화 중 완성 후보 순위를 자기 판단으로 정교화함으로써 메타인지 기능을 구현한다.
- 새로운 메타인지 데이터 선택 메커니즘은 고가치 훈련 예제를 식별하며, 단순 능동 학습보다 우수한 성능을 보인다.
- 이 접근 방식은 2단계 분리 과정을 통해 표현된 확신과 내재적 불확실성을 일치시키는 충실한 교정(FC)을 목표로 한다.
- RLMF는 다양한 작업에서 정확도를 유지하면서 표준 강화 학습 대비 최대 63% 향상된다.
이 패러다임은 LLM의 메타인지와 정렬을 향상시키며, 메타인지 성능이 기존 내재적 피드백 방법의 한계를 극복하기 위한 효과적인 강화 학습 신호로 작용할 수 있음을 시사한다.