SJTU-DENG-Lab 연구자들은 연속된 블록의 실행 집합을 동시에 디코딩하여 블록 간 병렬화를 구현함으로써 단일 블록 확산 모델을 확장하는 멀티 블록 확산 언어 모델(MBD-LMs)을 소개했습니다. 이 접근 방식은 사후 훈련 중 멀티 블록 교사 강제(MultiTF)를 사용하여 훈련 상태와 추론 간의 격차를 해소하고, 블록 버퍼 메커니즘에 기반한 최적화된 디코딩 알고리즘을 사용합니다.

  • MBD-LMs는 무작위 노이즈 스케줄러가 있는 클린 접두사에 조건부 지정된 제한된 노이즈 그룹에서 훈련하기 위해 멀티 블록 교사 강제를 활용합니다.
  • 블록 버퍼 메커니즘은 접두사 캐시 재사용을 보존하고 입력 모양을 정적으로 유지하여 병렬화를 실제 실행 시간 가속으로 변환합니다.
  • MBD-LLaDA2-Mini는 평균 순전파당 토큰 수(TPF)를 3.47에서 6.19로 증가시키고 평균 정확도를 79.95%에서 81.03%로 향상시켰습니다.
  • DMax와 결합할 때, MBD-LLaDA2-Mini-DMax는 수학 및 코드 벤치마크에서 정확도 하락이 1.02%에 그치는 동안 평균 TPF 9.34를 달성했습니다.

이 연구는 훈련 분포와 추론 상태를 정렬하여 멀티 블록 확산의 실용적 실행을 가능하게 하며 디코딩 처리량을 크게 향상시킵니다.