Los autores proponen un marco generador-discriminador adversarial que mejora el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) incorporando señales aprendidas de demostraciones humanas para abordar problemas como el colapso de la diversidad y salidas antinaturales.
- El generador maximiza la precisión de la tarea junto con una recompensa adversarial derivada de un discriminador entrenado para distinguir entre salidas escritas por humanos y las generadas por el modelo.
- Este enfoque mejora las propiedades no verificables en varios dominios mientras preserva las ganancias de precisión del RLVR, como una menor distancia de edición en la corrección de errores y mayores tasas de victoria en la generación de historias.
- El método elimina casi por completo el mal comportamiento del modelo en benchmarks de explotación de recompensas mientras mantiene altas puntuaciones, puenteando el Aprendizaje por Refuerzo (RL) y el Ajuste Fino Supervisado (SFT).
Este enfoque ofrece una ruta escalable hacia la optimización conjunta de las propiedades verificables y no verificables de una tarea.