arxiv arXiv cs.CL · hace 1 h · fuente: hace 10 d · research

d-OPSD: Auto-distilación en política para LLMs de difusión

Traducido del English → Español

d-OPSD es el primer marco de auto-distilación en política diseñado para LLMs de difusión. Utiliza respuestas auto-generadas como condicionamiento de sufijo y supervisión a nivel de paso, permitiendo un post-entrenamiento eficiente con solo aproximadamente el 10% de los pasos de optimización de RLVR, superando a las líneas base de RLVR y SFT en cuatro benchmarks de razonamiento.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.CL OpenAI Google DeepMind Meta AI AI agents Reasoning models Training methods

Leer original