UBP2: Planificación de preferencias equilibrada en incertidumbre para RL basado en preferencias eficiente
UBP2 introduce un método basado en modelos que explora activamente entornos razonando conjuntamente sobre las incertidumbres en las funciones de recompensa, dinámica y valor. Logra una mayor eficiencia de muestreo en el aprendizaje por refuerzo basado en preferencias, superando a las líneas base sin modelo y basadas en modelos no optimistas en la benchmark Meta-World.