Spec-AUF은 추론 동작과 훈련 목표를 일치시키기 위해 교차 엔트로피 손실을 승인된 접두사로 제한하는 스퓨큘레이티브 디코딩용 마스킹 블록 드래프터의 훈련 방법을 도입합니다. 이 접근 방식은 보조 목적이나 추론 파이프라인 변경 없이 드래프터의 첫 번째 예측 실패까지 손실 지지만을 유지하여 접두사 민감한 감독을 근사합니다.
- Qwen3-8B에서 AUF는 여섯 가지 벤치마크 전반에 걸쳐 DFlash 드래프터의 평균 방출 길이를 2.40에서 2.61로 높입니다.
- 이 방법은 Domino의 두 분기 헤드로 전이되어 성능을 2.56에서 2.68로 개선합니다.
- AUF가 지지를 잘라낸 후 표준 지수 위치 감쇠 가중치는 경험적으로 비활성화됩니다.
이 변경은 생성 중에 실제로 커밋되는 토큰에 대해서만 모델을 감독함으로써 드래프트 수용률을 개선합니다.