Aprendizaje de recompensas de proceso mediante emparejamiento de visitas al éxito para RL eficiente

Los autores proponen un método para transformar las recompensas de resultado inherentemente dispersas en aprendizaje por refuerzo en recompensas de proceso densas, entrenando un discriminador para distinguir entre episodios exitosos y no exitosos. Este enfoque incentiva a la política a emparejar las visitas al estado-acción de los episodios exitosos mientras evita las de los no exitosos, proporcionando retroalimentación densa sobre el progreso sin alterar la política óptima.

El método utiliza un discriminador para diferenciar episodios exitosos anteriores de los no exitosos.
Incentiva a la política de RL a emparejar las visitas al estado-acción de los episodios exitosos.
El enfoque proporciona retroalimentación densa sobre el progreso hacia la finalización de la tarea.
Logra probadamente este objetivo sin cambiar la política óptima.
Se demostró un rendimiento más rápido de finetuning de RL en tareas de manipulación robótica simuladas y del mundo real.

Esta técnica aborda el desafiante problema de asignación de crédito en configuraciones de recompensa dispersa, lo que lleva a una mejora significativamente más rápida en el aprendizaje por refuerzo para políticas de control robótico.