В данной статье представлен непрерывный фреймворк декодирования для языковых моделей с маскированной диффузией (MDLMs), который переосмысливает предсказание маски как предсказание чистого состояния, чтобы создать непрерывный поток в пространстве входных эмбеддингов. Позволяя токенам накапливать частичный прогресс и оставаться пересматриваемыми, метод решает проблему преждевременных обязательств, присущих стандартным режимам бинарного раскрытия.
- Фреймворк заменяет глобально синхронизированные расписания асинхронными обновлениями на основе уверенности для обработки неравномерных контекстных ограничений в разных позициях.
- Вводится легковесная сеть политик, которая обучается с помощью обучения с подкреплением для управления процессом декодирования.
- Примененный к предварительно обученной модели LLaDA, непрерывный декодер достигает 97% ее производительности на наборе данных HumanEval, используя лишь 25% бюджета декодирования.
Этот подход повышает эффективность за счет возможности представления частичных убеждений во время генерации, что позволяет сохранять значительную производительность при существенно меньших вычислительных ресурсах.