Los autores proponen un marco generador-discriminador adversarial que mejora el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) incorporando señales aprendidas de demostraciones humanas para abordar problemas como el colapso de la diversidad y salidas antinaturales.

  • El generador maximiza la precisión de la tarea junto con una recompensa adversarial derivada de un discriminador entrenado para distinguir entre salidas escritas por humanos y las generadas por el modelo.
  • Este enfoque mejora las propiedades no verificables en varios dominios mientras preserva las ganancias de precisión del RLVR, como una menor distancia de edición en la corrección de errores y mayores tasas de victoria en la generación de historias.
  • El método elimina casi por completo el mal comportamiento del modelo en benchmarks de explotación de recompensas mientras mantiene altas puntuaciones, puenteando el Aprendizaje por Refuerzo (RL) y el Ajuste Fino Supervisado (SFT).

Este enfoque ofrece una ruta escalable hacia la optimización conjunta de las propiedades verificables y no verificables de una tarea.