DiT-Reward: Representaciones generativas para modelado de recompensas de texto a imagen

El artículo presenta DiT-Reward, un método que convierte un Diffusion Transformer preentrenado de texto a imagen en un modelo de recompensa procesando latentes de imágenes casi limpias y agregando representaciones condicionadas por texto a través de las capas del transformer. Este enfoque aprovecha las representaciones generativas para evaluar la calidad de las imágenes generadas sin requerir objetivos de entrenamiento separados.

DiT-Reward supera a HPSv3 en los cuatro benchmarks de preferencia evaluados, logrando 85.6% en HPDv2 y 77.6% en HPDv3 utilizando la misma mezcla de datos de entrenamiento.
Una cabeza aprendida ligera puede extraer predicciones de preferencia significativas a partir de representaciones congeladas del backbone generativo.
El rendimiento de recompensa downstream es más fuerte en las capas intermedias a tardías y se beneficia de combinar representaciones a través de diferentes etapas.
El método muestra una escalabilidad positiva consistente con la capacidad del backbone generativo.
Al optimizar Stable Diffusion 3.5 Large con Flow-GRPO, DiT-Reward supera a HPSv3 con ganancias claras en realismo.
La puntuación directa de latentes proporciona una aceleración de inferencia de 1.65x sobre HPSv3 con memoria pico comparable.

Estos resultados demuestran que los Diffusion Transformers generativos preentrenados proporcionan representaciones transferibles adecuadas para tareas de modelado de recompensas y optimización de políticas.