UBP2 представляет модельный метод, который активно исследует среды, объединяя рассуждение о неопределенностях в вознаграждении, динамике и функциях ценности. Он обеспечивает превосходную эффективность в использовании образцов в предпочтительном обучении с помощью релевантности, превосходя как модельные, так и неоптимистичные модельные базовые методы на платформе Meta-World.
UBP2: Метод сбалансированного учета неопределенности для эффективного предпочтительного обучения с помощью релевантности
Переведено с English → Русский