Исследователи предлагают многоблочные диффузионные языковые модели (MBD-LMs) для расширения одноблочной генерации текста на основе диффузии за счёт одновременного декодирования набора последовательных блоков для параллелизма между блоками. Подход устраняет разрыв между состояниями обучения и вывода с помощью метода постобучения под названием многоблочное принудительное обучение учителем (MultiTF).

Метод использует MultiTF, который объединяет принудительное обучение учителем и диффузионное принуждение на ограниченных группах шума со случайными планировщиками шума для соответствия выводу MultiBD. Введён оптимизированный алгоритм декодирования на основе механизма буфера блоков, обеспечивающий повторное использование префиксного кэша и сохранение статичных форм входных данных. Эмпирические результаты показывают, что MBD-LLaDA2-Mini увеличивает среднее количество токенов за прямой проход с 3,47 до 6,19, одновременно повышая точность с 79,95% до 81,03%. При сочетании с DMax модель достигает среднего TPF 9,34 при падении точности всего на 1,02% на бенчмарках по математике и коду.

Эта работа преобразует увеличенное параллелизм декодирования в ускорение реального времени при сохранении или улучшении точности генерации.