Une enquête complémentaire sur l'exécution de GLM-5.2 NVFP4 sur quatre nœuds DGX Spark a résolu un goulot d'étranglement de performance précédent où des taux d'acceptation élevés étaient impossibles à 128K de contexte.
La cause racine était un bug dans `SpeculativeConfig.create_draft_parallel_config()` de vLLM qui n'a pas copié `decode_context_parallel_size`, faisant en sorte que les couches de brouillon ignorent le partitionnement DCP. Cela a conduit les mécanismes d'attention à traiter des fragments de cache local comme des données globales, entraînant l'effondrement des taux d'acceptation pour MTP2 et MTP3.
- Performance améliorée de ~15 tok/s à ~24 tok/s à 128K de contexte en utilisant DCP4 et MTP3/MTP4.
- Les taux d'acceptation MTP par position ont atteint 0.90, 0.79 et 0.67 pour les trois premiers tokens spéculatifs.
- La correction impliquait l'ajout d'une ligne de configuration manquante pour refléter la logique amont et le rebasement sur une branche vLLM plus récente.
Cette résolution élimine le compromis précédent entre la longueur du contexte et la vitesse, permettant aux utilisateurs d'exécuter un contexte complet de 128K avec un débit élevé sur cette configuration matérielle.