Aprendizaje de Políticas de Wasserstein para Resultados Distribucionales
Este artículo introduce el aprendizaje offline de políticas para resultados con valores de distribución, donde las recompensas se derivan de funcionales de utilidad aplicados a baricentros de Wasserstein. Establece garantías estadísticas utilizando estimadores IPW y DR, demostrando un arrepentimiento en muestras finitas con la dependencia principal \widetilde{\mathcal{O}}(\sqrt{\mathrm{N\text{-}dim}(\Pi)/N}) y proporciona un límite inferior minimax que confirma la nitidez de esta tasa.