Обучение политики по Вассерштейну для распределённых исходов

В данной статье предлагается офлайн-обучение политики для исходов, принимающих значения в пространстве распределений, где вознаграждения выводятся из функционалов полезности, применённых к барицентрам Вассерштейна. Доказываются статистические гарантии с использованием оценщиков IPW и DR, устанавливается регрет конечной выборки с ведущей зависимостью \widetilde{\mathcal{O}}(\sqrt{\mathrm{N\text{-}dim}(\Pi)/N}) и приводится минимаксная нижняя оценка, подтверждающая остроту этой скорости.