Мысли о планировании: обучение порядку рассуждений в диффузионных языковых моделях
Исследователи предлагают метод Self-Aware Scheduling (SAS), который обучает оптимальный порядок раскрытия токенов для маскированных диффузионных языковых моделей с целью улучшения качества генерации. Выводя достижимую верхнюю границу несоответствия последовательного декодирования, подход формулирует выбор порядка как задачу оптимизации политики с использованием Group Relative Policy Optimization.