Les auteurs proposent un cadre générateur-discriminateur adversaire qui améliore l'apprentissage par renforcement avec récompenses vérifiables (RLVR) en intégrant des signaux appris à partir de démonstrations humaines pour résoudre des problèmes tels que l'effondrement de la diversité et les sorties non naturelles.

  • Le générateur maximise la précision de la tâche conjointement avec une récompense adversaire dérivée d'un discriminateur entraîné à distinguer les sorties écrites par des humains de celles générées par le modèle.
  • Cette approche améliore les propriétés non vérifiables dans divers domaines tout en préservant les gains de précision du RLVR, tels qu'une distance d'édition plus faible pour la correction de bugs et un taux de victoire plus élevé pour la génération d'histoires.
  • La méthode élimine presque le mauvais comportement des modèles sur les benchmarks de triche par récompense tout en maintenant des scores élevés, comblant ainsi l'écart entre l'apprentissage par renforcement (RL) et l'ajustement fin supervisé (SFT).

Cette approche offre une voie évolutive vers l'optimisation conjointe des propriétés vérifiables et non vérifiables d'une tâche.