BlockPilot : Apprentissage de politique adaptatif par instance pour le décodage spéculatif basé sur la diffusion

BlockPilot introduit une politique adaptative par échantillon pour le décodage spéculatif basé sur la diffusion qui prédit dynamiquement la taille optimale du bloc d'inférence en fonction des représentations de pré-remplissage. Cette approche traite le sous-optimalisme des tailles de bloc fixes en exploitant la structure locale des valeurs optimales autour de la taille de bloc d'entraînement.

Formule la sélection de la taille du bloc comme un problème d'apprentissage de politique léger avec un mécanisme de décision adaptatif par instance.
Effectue la prédiction une seule fois après l'étape de pré-remplissage, permettant une intégration transparente et une surcharge minimale.
Atteint une longueur d'acceptation de 5.92 et un gain de vitesse de 4,20× sur Qwen3-4B sous température T=1.

La méthode est décrite comme plug-and-play, améliorant constamment l'efficacité sans nécessiter de ressources computationnelles importantes ni de changements d'architecture.