研究者らは、大規模言語モデルの体系的な欠陥(高い自信での幻覚や内部不確実性の誤表現など)に対処するため、メタ認知フィードバック付き強化学習(RLMF)を導入した。この手法は、モデルのパフォーマンスに対する自己判断の品質に基づき、選好最適化中の完了候補の順位付けを精緻化する。

  • RLMFは、選好最適化中の完了候補の順位付けを自己判断によって精緻化することで、メタ認知を実装する。
  • 新規なメタ認知データ選択機構が高価値の訓練例を特定し、単純な能動学習を上回る性能を示す。
  • このアプローチは、2段階の分離プロセスを通じて表現された自信と内在的不確実性を一致させる忠実な較正(FC)を対象とする。
  • RLMFは、多様なタスクでの精度を維持しつつ、標準的な強化学習を最大63%上回る。

このパラダイムはLLMのメタ認知とアライメントを強化し、メタ認知パフォーマンスが以前の内在的フィードバック手法の限界を克服するための効果的な強化学習シグナルとなる可能性を示唆している。