Para penulis mengusulkan kerangka kerja generator-diskriminator adversarial yang meningkatkan Pembelajaran Penguatan dengan Imbalan Terverifikasi (RLVR) dengan menggabungkan sinyal yang dipelajari dari demonstrasi manusia untuk mengatasi masalah seperti kolapsnya keberagaman dan output yang tidak alami.
- Generator memaksimalkan akurasi tugas bersama dengan imbalan adversarial yang berasal dari diskriminator yang dilatih untuk membedakan output tulisan manusia dari yang dihasilkan model.
- Pendekatan ini meningkatkan sifat-sifat yang tidak terverifikasi di berbagai domain sambil mempertahankan peningkatan akurasi RLVR, seperti jarak edit yang lebih rendah dalam perbaikan bug dan tingkat kemenangan yang lebih tinggi dalam generasi cerita.
- Metode ini hampir menghilangkan perilaku buruk model pada benchmark peretasan imbalan sambil mempertahankan skor tinggi, menjembatani RL dan Fine-Tuning Supervised (SFT).
Pendekatan ini menawarkan jalur yang dapat diskalakan untuk mengoptimalkan secara bersama-sama sifat-sifat yang terverifikasi dan tidak terverifikasi dari sebuah tugas.