DiT-Reward: Генеративные представления для моделирования вознаграждения в задачах text-to-image
В статье представлен DiT-Reward — метод, который превращает предварительно обученный Diffusion Transformer для генерации изображений по тексту в модель вознаграждения за счёт обработки почти чистых латентных представлений изображений и агрегирования текстово-условных представлений по слоям трансформера. Этот подход использует генеративные представления для оценки качества сгенерированных изображений без необходимости отдельных целей обучения.