Авторы предлагают состязательную генераторно-дискриминаторную архитектуру, которая усиливает обучение с подкреплением по проверяемым наградам (RLVR) за счёт включения обученных сигналов из демонстраций человека для решения таких проблем, как коллапс разнообразия и неестественные выходные данные.

  • Генератор максимизирует точность задачи наряду с состязательной наградой, полученной от дискриминатора, обученного различать выводы, написанные человеком, и сгенерированные моделью.
  • Этот подход улучшает непроверяемые свойства в различных областях, сохраняя при этом выигрыши точности RLVR, такие как меньшее расстояние редактирования при исправлении ошибок и более высокие показатели побед в генерации историй.
  • Метод практически устраняет некорректное поведение модели на бенчмарках по взлому награды, сохраняя высокие баллы, и связывает обучение с подкреплением (RL) и дообучение с учителем (SFT).

Этот подход предлагает масштабируемый путь к совместной оптимизации проверяемых и непроверяемых свойств задачи.