PQLRM es un algoritmo de aprendizaje por refuerzo multiobjetivo que combina Q-Learning de Pareto con Máquinas de Recompensa para manejar recompensas no markovianas. Converge más rápido que una línea base ingenua de PQL en MDPs de producto cruzado y genera políticas óptimas de Pareto más allá de la capacidad de QRM.