UBP2 introduce un método basado en modelos que explora activamente entornos razonando conjuntamente sobre las incertidumbres en las funciones de recompensa, dinámica y valor. Logra una mayor eficiencia de muestreo en el aprendizaje por refuerzo basado en preferencias, superando a las líneas base sin modelo y basadas en modelos no optimistas en la benchmark Meta-World.
UBP2: Planificación de preferencias equilibrada en incertidumbre para RL basado en preferencias eficiente
Traducido del English → Español