BlockPilot introduit une politique adaptative par échantillon pour le décodage spéculatif basé sur la diffusion qui prédit dynamiquement la taille optimale du bloc d'inférence en fonction des représentations de pré-remplissage. Cette approche traite le sous-optimalisme des tailles de bloc fixes en exploitant la structure locale des valeurs optimales autour de la taille de bloc d'entraînement.
- Formule la sélection de la taille du bloc comme un problème d'apprentissage de politique léger avec un mécanisme de décision adaptatif par instance.
- Effectue la prédiction une seule fois après l'étape de pré-remplissage, permettant une intégration transparente et une surcharge minimale.
- Atteint une longueur d'acceptation de 5.92 et un gain de vitesse de 4,20× sur Qwen3-4B sous température T=1.
La méthode est décrite comme plug-and-play, améliorant constamment l'efficacité sans nécessiter de ressources computationnelles importantes ni de changements d'architecture.