d-OPSD es el primer marco de auto-distilación en política diseñado para LLMs de difusión. Utiliza respuestas auto-generadas como condicionamiento de sufijo y supervisión a nivel de paso, permitiendo un post-entrenamiento eficiente con solo aproximadamente el 10% de los pasos de optimización de RLVR, superando a las líneas base de RLVR y SFT en cuatro benchmarks de razonamiento.