Модели потока маскированного языка

Авторы представляют модели потока маскированного языка (MLFMs), которые объединяют маскированную диффузию с непрерывными потоками для обеспечения эффективного многошагового рассуждения при генерации текста. Этот подход сокращает разрыв между эффективностью параллельной генерации и производительностью в сложных задачах, позволяя адаптировать предварительно обученные модели в MLFMs.

MLFMs используют непрерывный стохастический интерполянт для связи частично замаскированных и чистых последовательностей, что позволяет осуществлять условную генерацию через непрерывные потоки.
Фреймворк позволяет преобразовывать предварительно обученные модели маскированной диффузии (MDMs) в MLFMs с помощью простой и легкой адаптации.
Предложен новый семплер, который чередует непрерывное удаление шума с дискретным снятием маски с уверенных токенов для поддержки многошагового рассуждения.
Оценка на GSM8K и MT-Bench демонстрирует, что языковые модели на основе потоков теперь могут масштабироваться для решения задач последующего рассуждения и следования инструкциям.

Эта работа устраняет ограничение моделей потока языка в декодировании каждого токена, впервые доказывая, что модели на основе потоков жизнеспособны для сложных приложений рассуждения и следования инструкциям.

Бенчмарки