Spec-AUF 引入了一种针对推测解码中掩码块草稿器的训练方法,通过将交叉熵损失限制在已接受的 prefix 上,使训练目标与推理行为对齐。该方法通过在草稿器首次预测失败之前保留损失支持来近似前缀敏感的监督,无需辅助目标或改变推理流水线。

  • 在 Qwen3-8B 上,AUF 将 DFlash 草稿器在六个基准测试中的平均输出长度从 2.40 提高到 2.61。
  • 该方法可迁移至 Domino 的双分支头,性能从 2.56 提升至 2.68。
  • 一旦 AUF 截断支持范围,标准的指数位置衰减加权在经验上变得无效。

此更改通过确保模型仅在生成过程中实际提交的 token 上进行监督,从而提高了草稿接受率。