Un marco adversarial complementa el RLVR con señales de demostración humana

Los autores proponen un marco generador-discriminador adversarial que mejora el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) incorporando señales aprendidas de demostraciones humanas para abordar problemas como el colapso de la diversidad y salidas antinaturales.

El generador maximiza la precisión de la tarea junto con una recompensa adversarial derivada de un discriminador entrenado para distinguir entre salidas escritas por humanos y las generadas por el modelo.
Este enfoque mejora las propiedades no verificables en varios dominios mientras preserva las ganancias de precisión del RLVR, como una menor distancia de edición en la corrección de errores y mayores tasas de victoria en la generación de historias.
El método elimina casi por completo el mal comportamiento del modelo en benchmarks de explotación de recompensas mientras mantiene altas puntuaciones, puenteando el Aprendizaje por Refuerzo (RL) y el Ajuste Fino Supervisado (SFT).

Este enfoque ofrece una ruta escalable hacia la optimización conjunta de las propiedades verificables y no verificables de una tarea.