arxiv arXiv cs.LG · hace 2 h · fuente: hace 11 d · research

UBP2: Planificación de preferencias equilibrada en incertidumbre para RL basado en preferencias eficiente

Traducido del English → Español

UBP2 introduce un método basado en modelos que explora activamente entornos razonando conjuntamente sobre las incertidumbres en las funciones de recompensa, dinámica y valor. Logra una mayor eficiencia de muestreo en el aprendizaje por refuerzo basado en preferencias, superando a las líneas base sin modelo y basadas en modelos no optimistas en la benchmark Meta-World.

Importancia 2/3 arXiv cs.LG Meta AI Evaluation & benchmarks Reasoning models Training methods

Leer original