BlockPilot вводит политику, адаптивную к образцу, для диффузионного спекулятивного декодирования, которая динамически предсказывает оптимальный размер блока вывода на основе представлений предварительной обработки. Этот подход устраняет субоптимальность фиксированных размеров блоков за счет использования локальной структуры оптимальных значений вокруг размера блока обучения.

  • Формализует выбор размера блока как легковесную задачу обучения политики с механизмом принятия решений, адаптивным к экземпляру.
  • Выполняет предсказание только один раз после этапа предварительной обработки, что позволяет обеспечить бесшовную интеграцию и минимальные накладные расходы.
  • Достигает длины принятия 5.92 и ускорения в 4.20× на модели Qwen3-4B при температуре T=1.

Метод описывается как «plug-and-play», последовательно повышая эффективность без необходимости значительных вычислительных ресурсов или изменений архитектуры.