d-OPSD es el primer marco de auto-distilación en política diseñado para LLMs de difusión. Utiliza respuestas auto-generadas como condicionamiento de sufijo y supervisión a nivel de paso, permitiendo un post-entrenamiento eficiente con solo aproximadamente el 10% de los pasos de optimización de RLVR, superando a las líneas base de RLVR y SFT en cuatro benchmarks de razonamiento.
d-OPSD: Auto-distilación en política para LLMs de difusión
Traducido del English → Español