arxiv arXiv cs.LG · hace 2 h · fuente: hace 11 d · research

El RL guiado por discriminador corrige el emparejamiento de flujos con recompensas alineadas a los datos

Traducido del English → Español

El RL guiado por discriminador (DRL) utiliza un espacio de representaciones preentrenado para entrenar un discriminador que separa los datos reales de las muestras generadas por el modelo. Su logit se usa como recompensa en el RL con regularización KL, alineando las salidas del modelo con la realismo visual y semántico sin preferencias humanas. DRL mejora FID y FD semántico en modelos como SiT y JiT, y mejora la frontera de Pareto entre preferencia y fidelidad.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.LG Google DeepMind Mistral AI OpenAI Evaluation & benchmarks Reasoning models Training methods

Leer original