O Spec-AUF introduz um método de treinamento para redatores de blocos mascarados na decodificação especulativa que alinha o objetivo de treinamento com o comportamento de inferência ao restringir a perda de entropia cruzada apenas ao prefixo aceito. A abordagem aproxima a supervisão sensível ao prefixo mantendo o suporte da perda apenas até a primeira falha prevista pelo redator, sem exigir objetivos auxiliares ou mudanças no pipeline de inferência.

  • No Qwen3-8B, o AUF eleva o comprimento médio emitido do redator DFlash de 2.40 para 2.61 em seis benchmarks.
  • O método é transferido para a cabeça de duas ramificações do Domino, melhorando o desempenho de 2.56 para 2.68.
  • O ponderado padrão de decaimento exponencial de posição torna-se empiricamente inerte assim que o AUF truncar o suporte.

Esta alteração melhora as taxas de aceitação do rascunho ao garantir que o modelo seja supervisionado apenas nos tokens que realmente são comprometidos durante a geração.