SJTU-DENG-Lab, 멀티 블록 교사 강제와 함께 멀티 블록 확산 언어 모델 제안

SJTU-DENG-Lab 연구자들은 연속된 블록의 실행 집합을 동시에 디코딩하여 블록 간 병렬화를 구현함으로써 단일 블록 확산 모델을 확장하는 멀티 블록 확산 언어 모델(MBD-LMs)을 소개했습니다. 이 접근 방식은 사후 훈련 중 멀티 블록 교사 강제(MultiTF)를 사용하여 훈련 상태와 추론 간의 격차를 해소하고, 블록 버퍼 메커니즘에 기반한 최적화된 디코딩 알고리즘을 사용합니다.

MBD-LMs는 무작위 노이즈 스케줄러가 있는 클린 접두사에 조건부 지정된 제한된 노이즈 그룹에서 훈련하기 위해 멀티 블록 교사 강제를 활용합니다.
블록 버퍼 메커니즘은 접두사 캐시 재사용을 보존하고 입력 모양을 정적으로 유지하여 병렬화를 실제 실행 시간 가속으로 변환합니다.
MBD-LLaDA2-Mini는 평균 순전파당 토큰 수(TPF)를 3.47에서 6.19로 증가시키고 평균 정확도를 79.95%에서 81.03%로 향상시켰습니다.
DMax와 결합할 때, MBD-LLaDA2-Mini-DMax는 수학 및 코드 벤치마크에서 정확도 하락이 1.02%에 그치는 동안 평균 TPF 9.34를 달성했습니다.

이 연구는 훈련 분포와 추론 상태를 정렬하여 멀티 블록 확산의 실용적 실행을 가능하게 하며 디코딩 처리량을 크게 향상시킵니다.