Los autores proponen un método para transformar las recompensas de resultado inherentemente dispersas en aprendizaje por refuerzo en recompensas de proceso densas, entrenando un discriminador para distinguir entre episodios exitosos y no exitosos. Este enfoque incentiva a la política a emparejar las visitas al estado-acción de los episodios exitosos mientras evita las de los no exitosos, proporcionando retroalimentación densa sobre el progreso sin alterar la política óptima.

  • El método utiliza un discriminador para diferenciar episodios exitosos anteriores de los no exitosos.
  • Incentiva a la política de RL a emparejar las visitas al estado-acción de los episodios exitosos.
  • El enfoque proporciona retroalimentación densa sobre el progreso hacia la finalización de la tarea.
  • Logra probadamente este objetivo sin cambiar la política óptima.
  • Se demostró un rendimiento más rápido de finetuning de RL en tareas de manipulación robótica simuladas y del mundo real.

Esta técnica aborda el desafiante problema de asignación de crédito en configuraciones de recompensa dispersa, lo que lleva a una mejora significativamente más rápida en el aprendizaje por refuerzo para políticas de control robótico.