O BlockPilot introduz uma política adaptativa à amostra para decodificação especulativa baseada em difusão que prevê dinamicamente o tamanho ótimo do bloco de inferência com base nas representações de pré-preenchimento. Esta abordagem aborda a subotimalidade dos tamanhos de bloco fixos ao aproveitar a estrutura local dos valores ótimos ao redor do tamanho do bloco de treinamento.
- Formula a seleção do tamanho do bloco como um problema de aprendizado de política leve com um mecanismo de decisão adaptativo à instância.
- Realiza a previsão apenas uma vez após a etapa de pré-preenchimento, permitindo integração perfeita e sobrecarga mínima.
- Alcança um comprimento de aceitação de 5.92 e uma aceleração de 4.20× no Qwen3-4B sob temperatura T=1.
O método é descrito como plug-and-play, melhorando consistentemente a eficiência sem exigir recursos computacionais significativos ou alterações na arquitetura.