Эта статья вводит офлайн-обучение политик для распределений-значений, где вознаграждения получают из функционалов полезности, применённых к водяным барицентрам. Она устанавливает статистические гарантии с использованием оценок IPW и DR, доказывая конечную выборочную регрет с доминирующим зависимостью \widetilde{\mathcal{O}}(\sqrt{\mathrm{N\text{-}dim}(\Pi)/N}) и предоставляет минимаксную нижнюю границу, подтверждающую острые характеристики этого скорости.
Wasserstein Policy Learning for Distributional Outcomes
Переведено с English → Русский