Spec-AUF introduit une méthode d'entraînement pour les drafters de blocs masqués en décodage spéculatif qui aligne l'objectif d'entraînement sur le comportement d'inférence en restreignant la perte d'entropie croisée au préfixe accepté. L'approche approxime la supervision sensible au préfixe en ne maintenant le support de la perte que jusqu'à la première prédiction échouée du drifter, sans nécessiter d'objectifs auxiliaires ni de modifications du pipeline d'inférence.
- Sur Qwen3-8B, AUF augmente la longueur moyenne émise par le drifter DFlash de 2.40 à 2.61 sur six benchmarks.
- La méthode se transfère à la tête à deux branches de Domino, améliorant les performances de 2.56 à 2.68.
- Le pondération exponentielle standard de décroissance de position devient empiriquement inerte une fois qu'AUF tronque le support.
Ce changement améliore les taux d'acceptation des drafts en s'assurant que le modèle est supervisé uniquement sur les tokens réellement engagés pendant la génération.