BlockPilot 引入了一种样本自适应策略,用于基于扩散的推测解码,该策略根据预填充表示动态预测最佳推理块大小。这种方法通过利用训练块大小周围最优值的局部结构,解决了固定块大小的次优性问题。

  • 将块大小选择表述为一个轻量级的策略学习问题,具有实例自适应决策机制。
  • 仅在预填充阶段之后执行一次预测,从而实现无缝集成和最小开销。
  • 在温度 T=1 下的 Qwen3-4B 上实现了 5.92 的接受长度和 4.20× 的加速。

该方法被描述为即插即用,无需大量计算资源或架构更改即可持续提高效率。