Spec-AUFは、推論動作とトレーニング目的を一致させるために、クロスエントロピー損失を受け入れられた接頭辞に制限するマスク付きブロックドラフター用のトレーニング手法を導入します。このアプローチは、補助的な目的関数や推論パイプラインの変更を必要とせずに、ドラフターの最初の予測失敗まで損失のサポートのみを保持することで、接頭辞依存の教師あり学習を近似します。

  • Qwen3-8Bにおいて、AUFは6つのベンチマーク全体でDFlashドラフターの平均生成長を2.40から2.61に向上させます。
  • この手法はDominoの2分岐ヘッドにも転移し、パフォーマンスを2.56から2.68に改善します。
  • AUFがサポートを切り詰めた後、標準的な指数関数的位置減衰重み付けは実質的に機能しなくなります。

この変更により、生成中に実際にコミットされるトークンに対してのみモデルが教師あり学習を行うことで、ドラフトの受け入れ率が向上します。