Os autores propõem uma estrutura geradora-discriminadora adversarial que aprimora o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) ao incorporar sinais aprendidos de demonstrações humanas para abordar problemas como colapso de diversidade e saídas antinaturais.

  • O gerador maximiza a precisão da tarefa juntamente com uma recompensa adversarial derivada de um discriminador treinado para distinguir entre saídas escritas por humanos e as geradas pelo modelo.
  • Esta abordagem melhora propriedades não verificáveis em vários domínios, preservando os ganhos de precisão do RLVR, como menor distância de edição na correção de bugs e maiores taxas de vitória na geração de histórias.
  • O método elimina quase completamente o mau comportamento do modelo em benchmarks de exploração de recompensas, mantendo altas pontuações, conectando o Aprendizado por Reforço (RL) e o Ajuste Fino Supervisionado (SFT).

Esta abordagem oferece um caminho escalável para a otimização conjunta das propriedades verificáveis e não verificáveis de uma tarefa.