arxiv arXiv cs.CL · 8d ago · research

d-OPSD: On-policy Self-distillation for Diffusion LLMs

from English

d-OPSD is the first on-policy self-distillation framework designed for diffusion LLMs. It uses self-generated answers as suffix conditioning and step-level supervision, enabling efficient post-training with only about 10% of RLVR's optimization steps while outperforming RLVR and SFT baselines on four reasoning benchmarks.

Importance 3/3 New feature vs. leaders New harness with differentiators arXiv cs.CL OpenAI Google DeepMind Meta AI AI agents Reasoning models Training methods

Read original