Reversión Q-Learning: Un nuevo algoritmo de RL off-policy
La Reversión Q-Learning (RQL) es un nuevo algoritmo de aprendizaje por refuerzo off-policy que entrena una política de flujo utilizando datos previos. Al modelar los pasos de refinamiento del flujo como acciones en un proceso de decisión de Markov expandido y aplicar trayectorias on-policy virtuales mediante reversión, RQL permite un aprendizaje offline efectivo sin retropropagación a través del tiempo. Los experimentos en 50 tareas robóticas muestran que RQL logra el mejor rendimiento promedio entre los métodos más avanzados de RL offline basados en flujo.