Para penulis mengusulkan kerangka kerja generator-diskriminator adversarial yang meningkatkan Pembelajaran Penguatan dengan Imbalan Terverifikasi (RLVR) dengan menggabungkan sinyal yang dipelajari dari demonstrasi manusia untuk mengatasi masalah seperti kolapsnya keberagaman dan output yang tidak alami.

  • Generator memaksimalkan akurasi tugas bersama dengan imbalan adversarial yang berasal dari diskriminator yang dilatih untuk membedakan output tulisan manusia dari yang dihasilkan model.
  • Pendekatan ini meningkatkan sifat-sifat yang tidak terverifikasi di berbagai domain sambil mempertahankan peningkatan akurasi RLVR, seperti jarak edit yang lebih rendah dalam perbaikan bug dan tingkat kemenangan yang lebih tinggi dalam generasi cerita.
  • Metode ini hampir menghilangkan perilaku buruk model pada benchmark peretasan imbalan sambil mempertahankan skor tinggi, menjembatani RL dan Fine-Tuning Supervised (SFT).

Pendekatan ini menawarkan jalur yang dapat diskalakan untuk mengoptimalkan secara bersama-sama sifat-sifat yang terverifikasi dan tidak terverifikasi dari sebuah tugas.