UBP2: Planificación de preferencias equilibrada en incertidumbre para RL basado en preferencias eficiente
UBP2 introduce un método basado en modelos que explora activamente entornos razonando conjuntamente sobre las incertidumbres en las funciones de recompensa, dinámica y valor. Logra una eficiencia de muestras superior en el aprendizaje por refuerzo basado en preferencias, superando a los puntos de referencia libres de modelo y basados en modelos no optimistas en la benchmark Meta-World.