Los autores presentan DiT-Reward, un método que convierte un Diffusion Transformer preentrenado de texto a imagen en un modelo de recompensa agregando representaciones de imágenes condicionadas por texto a través de las capas del transformer. Evaluado con la misma mezcla de datos de entrenamiento que HPSv3, DiT-Reward supera a HPSv3 en los cuatro benchmarks de preferencia, alcanzando 85.6% en HPDv2 y 77.6% en HPDv3. El estudio revela que el rendimiento de recompensa en tareas posteriores es más fuerte en las capas intermedias a tardías y se beneficia al combinar representaciones de diferentes etapas. Incluso con un backbone generativo congelado, una cabeza aprendida ligera puede extraer predicciones de preferencia significativas de estas representaciones. Cuando se usa para optimizar Stable Diffusion 3.5 Large con Flow-GRPO, DiT-Reward supera a HPSv3 a lo largo de la trayectoria de entrenamiento coincidente, mostrando ganancias claras en realismo. Además, la puntuación directa de latentes proporciona una aceleración de inferencia de 1.65x sobre HPSv3 mientras mantiene un uso de memoria pico comparable. Estos resultados demuestran que los Diffusion Transformers generativos preentrenados proporcionan representaciones transferibles para el modelado de recompensa y la optimización de políticas.
DiT-Reward: Usar representaciones de Diffusion Transformer para modelado de recompensa en texto a imagen
Traducido del English → Español