El RL guiado por discriminador (DRL) utiliza un espacio de representaciones preentrenado para entrenar un discriminador que separa los datos reales de las muestras generadas por el modelo. Su logit se usa como recompensa en el RL con regularización KL, alineando las salidas del modelo con la realismo visual y semántico sin preferencias humanas. DRL mejora FID y FD semántico en modelos como SiT y JiT, y mejora la frontera de Pareto entre preferencia y fidelidad.