Kerangka kerja adversarial meningkatkan RLVR dengan sinyal demonstrasi manusia

Para penulis mengusulkan kerangka kerja generator-diskriminator adversarial yang meningkatkan Pembelajaran Penguatan dengan Imbalan Terverifikasi (RLVR) dengan menggabungkan sinyal yang dipelajari dari demonstrasi manusia untuk mengatasi masalah seperti kolapsnya keberagaman dan output yang tidak alami.

Generator memaksimalkan akurasi tugas bersama dengan imbalan adversarial yang berasal dari diskriminator yang dilatih untuk membedakan output tulisan manusia dari yang dihasilkan model.
Pendekatan ini meningkatkan sifat-sifat yang tidak terverifikasi di berbagai domain sambil mempertahankan peningkatan akurasi RLVR, seperti jarak edit yang lebih rendah dalam perbaikan bug dan tingkat kemenangan yang lebih tinggi dalam generasi cerita.
Metode ini hampir menghilangkan perilaku buruk model pada benchmark peretasan imbalan sambil mempertahankan skor tinggi, menjembatani RL dan Fine-Tuning Supervised (SFT).

Pendekatan ini menawarkan jalur yang dapat diskalakan untuk mengoptimalkan secara bersama-sama sifat-sifat yang terverifikasi dan tidak terverifikasi dari sebuah tugas.