Исследователи предлагают метод Self-Aware Scheduling (SAS), который обучает оптимальный порядок раскрытия токенов для маскированных диффузионных языковых моделей с целью улучшения качества генерации. Выводя достижимую верхнюю границу несоответствия последовательного декодирования, подход формулирует выбор порядка как задачу оптимизации политики с использованием Group Relative Policy Optimization.
- SAS вводит плотное вознаграждение на основе самосознания для упорядоченных траекторий, направляющее легковесную политику выбора порядка.
- Метод бесшовно применяется к режимам декодирования любого порядка и полуавторекурсивного декодирования.
- На задаче судоку с 1B MDM точность выросла с 82,0% до 91,8%, достигнув 97,5% после тонкой настройки второго этапа.
- Для математического рассуждения с LLaDA-8B pass@1 на GSM8K увеличился с 64% до 76%, а на MBPP — с 39,5% до 41%.
Этот подход предоставляет принципиально обоснованную альтернативу эвристическому планированию, последовательно соответствующую или превосходящую базовые показатели при различных длинах генерации и размерах блоков.