Este artículo introduce el aprendizaje offline de políticas para resultados con valores de distribución, donde las recompensas se derivan de funcionales de utilidad aplicados a baricentros de Wasserstein. Establece garantías estadísticas utilizando estimadores IPW y DR, demostrando un arrepentimiento en muestras finitas con la dependencia principal \widetilde{\mathcal{O}}(\sqrt{\mathrm{N\text{-}dim}(\Pi)/N}) y proporciona un límite inferior minimax que confirma la nitidez de esta tasa.