Spec-AUF introduce un método de entrenamiento para redactores de bloques enmascarados en decodificación especulativa que alinea el objetivo de entrenamiento con el comportamiento de inferencia al restringir la pérdida de entropía cruzada solo al prefijo aceptado. El enfoque aproxima la supervisión sensible al prefijo manteniendo el soporte de la pérdida únicamente hasta el primer fallo predicho por el redactor, sin requerir objetivos auxiliares ni cambios en la tubería de inferencia.
- En Qwen3-8B, AUF eleva la longitud emitida promedio del redactor DFlash de 2.40 a 2.61 en seis benchmarks.
- El método se transfiere a la cabeza de dos ramas de Domino, mejorando el rendimiento de 2.56 a 2.68.
- El ponderado estándar de decaimiento exponencial de posición se vuelve empíricamente inerte una vez que AUF truncar el soporte.
Este cambio mejora las tasas de aceptación del borrador al asegurar que el modelo sea supervisado solo en los tokens que realmente se comprometen durante la generación.