作者提出了一种对抗生成器-判别器框架,通过结合从人类演示中学习到的信号来增强可验证奖励强化学习(RLVR),以解决多样性崩溃和不自然输出等问题。
- 生成器在最大化任务准确率的同时,利用由判别器产生的对抗性奖励,该判别器经过训练以区分人类编写的输出和模型生成的输出。
- 该方法在保持 RLVR 准确率增益(如错误修复中的编辑距离更低、故事生成中的胜率更高)的同时,改善了跨领域的不可验证属性。
- 该方法在维持高分数的同时几乎消除了模型在奖励黑客基准测试中的不当行为,弥合了强化学习(RL)和监督微调(SFT)之间的差距。
这种方法为实现任务的可验证和不可验证属性的联合优化提供了一条可扩展的路径。