El autor demuestra la ejecución del modelo GLM-5.2 NVFP4 en cuatro nodos NVIDIA GB10 DGX Spark con una ventana de contexto de 128K, logrando un rendimiento de servicio utilizable mediante una optimización agresiva del sistema.

  • El modelo utiliza cuantización NVFP4 para las FFN de expertos MoE mientras mantiene la atención y el enrutador en BF16, reduciendo el tamaño del checkpoint de 1.5 TB a 410 GB.
  • El rendimiento alcanza aproximadamente 14.5-15.2 tokens por segundo en codegen con prompts cortos y mantiene alrededor de 13 tok/s en longitudes de contexto largas (32K-112K).
  • La configuración requiere una bifurcación personalizada de vLLM con parches DCP y B12X para MLA disperso, junto con una configuración de Ray fuertemente podada para ajustarse a las restricciones de memoria unificada.
  • El KV cache en BF16 con contexto de 128K no cupo con holgura suficiente, lo que obligó a usar fp8_kv_cache y deshabilitar servicios específicos del sistema operativo.

Esta guía proporciona una ruta viable para desplegar modelos a gran escala en hardware Spark combinando paralelismo de contexto de decodificación con un recorte significativo de memoria, aunque se señala como una configuración de nicho no adecuada para servicio por lotes.