В данной статье представлен непрерывный фреймворк декодирования для языковых моделей с маскированной диффузией (MDLMs), который переосмысливает предсказание маски как предсказание чистого состояния, чтобы создать непрерывный поток в пространстве входных эмбеддингов. Позволяя токенам накапливать частичный прогресс и оставаться пересматриваемыми, метод решает проблему преждевременных обязательств, присущих стандартным режимам бинарного раскрытия.

  • Фреймворк заменяет глобально синхронизированные расписания асинхронными обновлениями на основе уверенности для обработки неравномерных контекстных ограничений в разных позициях.
  • Вводится легковесная сеть политик, которая обучается с помощью обучения с подкреплением для управления процессом декодирования.
  • Примененный к предварительно обученной модели LLaDA, непрерывный декодер достигает 97% ее производительности на наборе данных HumanEval, используя лишь 25% бюджета декодирования.

Этот подход повышает эффективность за счет возможности представления частичных убеждений во время генерации, что позволяет сохранять значительную производительность при существенно меньших вычислительных ресурсах.