Uma investigação posterior sobre a execução do GLM-5.2 NVFP4 em quatro nós DGX Spark resolve um gargalo de desempenho anterior onde altas taxas de aceitação eram impossíveis com contexto de 128K.
A causa raiz foi um bug no `SpeculativeConfig.create_draft_parallel_config()` do vLLM que falhou ao copiar `decode_context_parallel_size`, fazendo com que as camadas de rascunho ignorassem o particionamento DCP. Isso resultou em mecanismos de atenção processando fragmentos de cache local como dados globais, levando a taxas de aceitação colapsadas para MTP2 e MTP3.
- O desempenho melhorou de ~15 tok/s para ~24 tok/s com contexto de 128K usando DCP4 e MTP3/MTP4.
- As taxas de aceitação do MTP por posição atingiram 0.90, 0.79 e 0.67 para os três primeiros tokens especulativos.
- A correção envolveu adicionar uma linha de configuração ausente para espelhar a lógica upstream e rebasear em um branch mais recente do vLLM.
Esta resolução elimina o trade-off anterior entre comprimento de contexto e velocidade, permitindo que usuários executem contexto completo de 128K com alta taxa de transferência nesta configuração de hardware.