Los autores proponen un método para transformar las recompensas de resultado inherentemente dispersas en aprendizaje por refuerzo en recompensas de proceso densas, entrenando un discriminador para distinguir entre episodios exitosos y no exitosos. Este enfoque incentiva a la política a emparejar las visitas al estado-acción de los episodios exitosos mientras evita las de los no exitosos, proporcionando retroalimentación densa sobre el progreso sin alterar la política óptima.
- El método utiliza un discriminador para diferenciar episodios exitosos anteriores de los no exitosos.
- Incentiva a la política de RL a emparejar las visitas al estado-acción de los episodios exitosos.
- El enfoque proporciona retroalimentación densa sobre el progreso hacia la finalización de la tarea.
- Logra probadamente este objetivo sin cambiar la política óptima.
- Se demostró un rendimiento más rápido de finetuning de RL en tareas de manipulación robótica simuladas y del mundo real.
Esta técnica aborda el desafiante problema de asignación de crédito en configuraciones de recompensa dispersa, lo que lleva a una mejora significativamente más rápida en el aprendizaje por refuerzo para políticas de control robótico.