Самоосознающее планирование обучает порядку размаскирования токенов в диффузионных языковых моделях

Авторы предлагают метод Self-Aware Scheduling (SAS) для оптимизации порядка размаскирования токенов в маскированных диффузионных языковых моделях, что существенно влияет на качество генерации. Они выводят вычислимую верхнюю границу несоответствия последовательного декодирования с использованием расхождения Кульбака-Лейблера и логарифмического правдоподобия по траекториям. Эта граница формирует плотное вознаграждение, основанное на самоосознании, которое представляет выбор порядка как задачу оптимизации политики с замороженным денoiserом (denoiser). SAS обучает легковесную политику порядка с помощью Group Relative Policy Optimization, поддерживая как декодирование в любом порядке, так и полуавторегрессионное декодирование. На задачах судоку с моделью на 1 млрд параметров точность улучшилась с 82,0% до 91,8%, достигнув 97,5% после тонкой настройки второго этапа. Для математических рассуждений с LLaDA-8B метрика pass@1 на GSM8K увеличилась с 64% до 76%. Метод также повысил баллы MBPP с 39,5% до 41%, последовательно соответствуя или превосходя эвристические расписания при различных параметрах.

Бенчмарк	Модель	Результат
GSM8K	LLaDA-8B	76%
MBPP+	LLaDA-8B	41%

Бенчмарки