UBP2 introduce un método basado en modelos que explora activamente entornos razonando conjuntamente sobre las incertidumbres en las funciones de recompensa, dinámica y valor. Logra una eficiencia de muestras superior en el aprendizaje por refuerzo basado en preferencias, superando a los puntos de referencia libres de modelo y basados en modelos no optimistas en la benchmark Meta-World.