BlockPilot introduce una política adaptativa a la muestra para la descodificación especulativa basada en difusión que predice dinámicamente el tamaño óptimo del bloque de inferencia basándose en las representaciones de prellenado. Este enfoque aborda la suboptimalidad de los tamaños de bloque fijos aprovechando la estructura local de los valores óptimos alrededor del tamaño de bloque de entrenamiento.

  • Formula la selección del tamaño del bloque como un problema de aprendizaje de política ligero con un mecanismo de decisión adaptativo a la instancia.
  • Realiza la predicción solo una vez después de la etapa de prellenado, permitiendo una integración perfecta y sobrecarga mínima.
  • Logra una longitud de aceptación de 5.92 y una aceleración de 4.20× en Qwen3-4B bajo temperatura T=1.

El método se describe como plug-and-play, mejorando consistentemente la eficiencia sin requerir recursos computacionales significativos ni cambios arquitectónicos.