Q-Learning de Pareto con Máquinas de Recompensa

PQLRM es un algoritmo de aprendizaje por refuerzo multiobjetivo que combina Q-Learning de Pareto con Máquinas de Recompensa para manejar recompensas no markovianas. Converge más rápido que el PQL ingenuo en MDPs de producto cruzado y genera políticas pareto-óptimas más allá de la capacidad de QRM.