저자들은 검증 가능한 보상 강화 학습(RLVR)의 다양성 붕괴와 부자연스러운 출력 등의 문제를 해결하기 위해 인간 시연에서 학습된 신호를 통합하는 적대적 생성자-판별자 프레임워크를 제안합니다.
- 생성자는 인간의 작성물과 모델 생성물을 구분하도록 훈련된 판별자로부터 유도된 적대적 보상과 함께 작업 정확도를 최대화합니다.
- 이 접근 방식은 RLVR의 정확도 향상(예: 버그 수정에서의 편집 거리 감소, 스토리 생성에서의 승률 증가)을 유지하면서 도메인 전반의 비검증 가능 특성을 개선합니다.
- 이 방법은 높은 점수를 유지하면서 보상 해킹 벤치마크에서 모델의 오작동을 거의 제거하여 RL과 지도 미세 조정(SFT) 간의 격차를 해소합니다.
이 접근 방식은 작업의 검증 가능 및 비검증 가능 특성을 함께 최적화하기 위한 확장 가능한 경로를 제공합니다.