El artículo presenta un marco para el aprendizaje por refuerzo multiobjetivo con múltiples políticas que aprende un conjunto de políticas óptimas de Pareto garantizando equidad entre diversas preferencias de usuarios. Demuestra que las políticas justas permanecen dentro del conjunto de cobertura convexa para funciones de bienestar cóncavas y propone tres algoritmos que incorporan dinámicas de política no estacionarias y estocásticas. Los resultados empíricos muestran que estos métodos aprenden eficazmente políticas justas adaptables a diferentes preferencias de usuarios.