Una investigación posterior sobre la ejecución de GLM-5.2 NVFP4 en cuatro nodos DGX Spark resuelve un cuello de botella de rendimiento anterior donde las altas tasas de aceptación eran imposibles con un contexto de 128K.

La causa raíz fue un error en `SpeculativeConfig.create_draft_parallel_config()` de vLLM que no copió `decode_context_parallel_size`, haciendo que las capas de borrador ignoraran el particionamiento DCP. Esto provocó que los mecanismos de atención procesaran fragmentos de caché local como datos globales, lo que resultó en tasas de aceptación colapsadas para MTP2 y MTP3.

  • El rendimiento mejoró de ~15 tok/s a ~24 tok/s con un contexto de 128K usando DCP4 y MTP3/MTP4.
  • Las tasas de aceptación de MTP por posición alcanzaron 0.90, 0.79 y 0.67 para los primeros tres tokens especulativos.
  • La corrección implicó agregar una línea de configuración faltante para reflejar la lógica principal y rebasear sobre una rama más reciente de vLLM.

Esta resolución elimina el compromiso anterior entre la longitud del contexto y la velocidad, permitiendo a los usuarios ejecutar un contexto completo de 128K con alto rendimiento en esta configuración de hardware.