Spec-AUF улучшает длину принятия маскированного блочного драфтера, ограничивая поддержку функции потерь

Spec-AUF представляет метод обучения для маскированных блочных драфтеров в спекулятивном декодировании, который согласует цель обучения с поведением при выводе, ограничивая перекрёстную энтропию (cross-entropy loss) только принятым префиксом. Подход аппроксимирует чувствительный к префиксу надзор, сохраняя поддержку функции потерь только до первого предсказанного драфтером отказа, без необходимости во вспомогательных целях или изменениях в конвейере вывода.

На Qwen3-8B AUF увеличивает среднюю длину выдачи драфтера DFlash с 2.40 до 2.61 по шести бенчмаркам.
Метод переносится на двухветвистую голову Domino, улучшая производительность с 2.56 до 2.68.
Стандартное экспоненциальное взвешивание с убыванием позиции становится эмпирически инертным, как только AUF усечёт поддержку.

Это изменение улучшает частоту принятия черновиков, обеспечивая надзор модели только на токенах, которые фактически фиксируются во время генерации.