著者らは、人間による示範から学習された信号を組み込むことで、多様性の崩壊や不自然な出力などの課題に対処し、検証可能な報酬付き強化学習(RLVR)を強化する敵対的生成器-識別子フレームワークを提案する。

  • 生成器は、人間の記述とモデル生成の出力を区別するように訓練された識別子から得られる敵対的報酬とともに、タスク精度を最大化する。
  • このアプローチは、バグ修正における編集距離の短縮やストーリー生成における勝率の上昇など、RLVRの精度向上を維持しつつ、ドメイン横断的な非検証可能特性を改善する。
  • 本手法は、高いスコアを維持しながら報酬ハッキングベンチマークにおけるモデルの振る舞いの悪化をほぼ解消し、強化学習と教師ありファインチューニング(SFT)をつなぐ。

このアプローチは、タスクの検証可能特性と非検証可能特性の両方を同時に最適化するスケーラブルな道筋を提供する。