Aprendizaje de recompensas del proceso mediante coincidencia de visitas al éxito para RL eficiente
Los autores abordan el desafío de entrenar políticas de aprendizaje por refuerzo con recompensas de resultado inherentemente dispersas, lo que conduce a problemas difíciles de asignación de crédito. Proponen un método para transformar estas recompensas dispersas en recompensas densas del proceso mediante el entrenamiento de un discriminador para distinguir entre episodios exitosos y no exitosos. Este discriminador incentiva a la política a coincidir con las visitas al estado-acción de los episodios exitosos mientras evita las de los no exitosos. Al proporcionar retroalimentación densa sobre el progreso hacia la finalización de la tarea, el enfoque logra esto de manera demostrable sin alterar la política óptima. El método se aplica específicamente al ajuste fino de políticas de control robótico para tareas de manipulación. Los resultados experimentales demuestran un rendimiento significativamente más rápido en el ajuste fino de RL tanto en entornos simulados como del mundo real en comparación con maximizar únicamente las recompensas de resultado dispersas.