GLM-5.2 en 4x DGX Spark: Reconstrucción de pasos de compilación faltantes para descodificación especulativa MTP

El autor implementó con éxito GLM-5.2 con descodificación especulativa MTP en un clúster de cuatro nodos NVIDIA GB10 (DGX Spark), alcanzando aproximadamente 9.4 tokens por segundo. Esta configuración utiliza vLLM con paralelismo de tensor, kernels Triton sparse-MLA portados y una poda determinista del 15% de expertos para ajustar los pesos AWQ-INT4. Un hallazgo crítico es que las instrucciones originales de construcción de la imagen Docker están incompletas, requiriendo la reconstrucción de parches faltantes para deep_gemm.py y sparse_attn_indexer.py. El autor también identificó que usar cualquier versión de vLLM distinta al commit específico fijado provoca que los pesos AWQ reales fallen durante la carga debido a errores de CUDA. Para replicar el entorno, los usuarios deben aplicar un script personalizado que incorpore kernels y funciones de enrutamiento a fallbacks sm12x. Los beneficios de rendimiento incluyen aproximadamente el doble de velocidad de las implementaciones anteriores de llama.cpp, aunque el ancho de banda entre nodos sigue siendo un cuello de botella para la escalabilidad dual-rail.