Aprendiendo políticas óptimas de Pareto justas en aprendizaje por refuerzo multiobjetivo
El artículo presenta un marco para el aprendizaje por refuerzo multiobjetivo con múltiples políticas que aprende un conjunto de políticas óptimas de Pareto garantizando equidad entre diversas preferencias de usuarios. Demuestra que las políticas justas permanecen dentro del conjunto de cobertura convexa para funciones de bienestar cóncavas como GGF y propone tres algoritmos que incorporan políticas no estacionarias y estocásticas para adaptarse a inequidades históricas. Los resultados empíricos muestran que estos métodos aprenden efectivamente políticas justas en múltiples dominios.