O Spec-AUF introduz um método de treinamento para redatores de blocos mascarados na decodificação especulativa que alinha o objetivo de treinamento com o comportamento de inferência ao restringir a perda de entropia cruzada apenas ao prefixo aceito. A abordagem aproxima a supervisão sensível ao prefixo mantendo o suporte da perda apenas até a primeira falha prevista pelo redator, sem exigir objetivos auxiliares ou mudanças no pipeline de inferência.
- No Qwen3-8B, o AUF eleva o comprimento médio emitido do redator DFlash de 2.40 para 2.61 em seis benchmarks.
- O método é transferido para a cabeça de duas ramificações do Domino, melhorando o desempenho de 2.56 para 2.68.
- O ponderado padrão de decaimento exponencial de posição torna-se empiricamente inerte assim que o AUF truncar o suporte.
Esta alteração melhora as taxas de aceitação do rascunho ao garantir que o modelo seja supervisionado apenas nos tokens que realmente são comprometidos durante a geração.