Мысли о планировании: обучение порядку рассуждений в диффузионных языковых моделях

Исследователи предлагают метод Self-Aware Scheduling (SAS), который обучает оптимальный порядок раскрытия токенов для маскированных диффузионных языковых моделей с целью улучшения качества генерации. Выводя достижимую верхнюю границу несоответствия последовательного декодирования, подход формулирует выбор порядка как задачу оптимизации политики с использованием Group Relative Policy Optimization.

SAS вводит плотное вознаграждение на основе самосознания для упорядоченных траекторий, направляющее легковесную политику выбора порядка.
Метод бесшовно применяется к режимам декодирования любого порядка и полуавторекурсивного декодирования.
На задаче судоку с 1B MDM точность выросла с 82,0% до 91,8%, достигнув 97,5% после тонкой настройки второго этапа.
Для математического рассуждения с LLaDA-8B pass@1 на GSM8K увеличился с 64% до 76%, а на MBPP — с 39,5% до 41%.

Этот подход предоставляет принципиально обоснованную альтернативу эвристическому планированию, последовательно соответствующую или превосходящую базовые показатели при различных длинах генерации и размерах блоков.

Бенчмарк	Модель	Результат
GSM8K	LLaDA-8B	76%
MBPP+	LLaDA-8B	41%

Бенчмарки