Исследователи из SJTU-DENG-Lab представляют многоблочные диффузионные языковые модели (MBD-LMs), расширяющие одноблочные диффузионные модели за счёт одновременного декодирования набора последовательных блоков для параллелизма между блоками. Подход использует многоблочное принудительное обучение учителя (MultiTF) во время постобучения для сокращения разрыва между состояниями обучения и вывода, а также оптимизированный алгоритм декодирования на основе механизма буфера блоков.

  • MBD-LMs используют многоблочное принудительное обучение учителя для тренировки на ограниченных группах шума при условии чистых префиксов с рандомизированными планировщиками шума.
  • Механизм буфера блоков сохраняет повторное использование кэша префикса и поддерживает статические формы входных данных, чтобы превратить параллелизм в ускорение по реальному времени.
  • MBD-LLaDA2-Mini увеличивает среднее количество токенов за прямой проход (TPF) с 3.47 до 6.19 и повышает среднюю точность с 79.95% до 81.03%.
  • В сочетании с DMax MBD-LLaDA2-Mini-DMax достигает среднего TPF 9.34 при падении точности всего на 1.02% на бенчмарках по математике и коду.

Эта работа обеспечивает практическое выполнение многоблочной диффузии, выравнивая распределения обучения с состояниями вывода и значительно повышая пропускную способность декодирования.