arxiv arXiv cs.AI · hace 1 h · fuente: hace 11 d · research

UBP2: Planificación de preferencias equilibrada en incertidumbre para RL basado en preferencias eficiente

Traducido del English → Español

UBP2 introduce un método basado en modelos que explora activamente entornos razonando conjuntamente sobre las incertidumbres en las funciones de recompensa, dinámica y valor. Logra una eficiencia de muestras superior en el aprendizaje por refuerzo basado en preferencias, superando a los puntos de referencia libres de modelo y basados en modelos no optimistas en la benchmark Meta-World.

Importancia 2/3 arXiv cs.AI Meta AI Evaluation & benchmarks Reasoning models Training methods

Leer original