Proponemos un flujo de trabajo diagnóstico para revelar variación conductual en políticas de aprendizaje por refuerzo multiobjetivo. El método destaca diferencias en las trayectorias de las políticas más allá de los retornos esperados, ofreciendo herramientas cuantitativas y visuales para la inspección de políticas. Validado en mundos de cuadrícula y escalado a tareas de control continuo, captura eficazmente la diversidad conductual bajo complejidad creciente.
Diagnósticos para la selección de políticas en MORL
Traducido del English → Español