Un usuario comparte una configuración de Docker para ejecutar GLM-5.2-FP8 en hardware HGX-H200 utilizando SGLang. La configuración logra una longitud de contexto de 262k y 70 tokens por segundo con paralelismo tensorial de 8, usando una fracción de memoria de 0.83. El usuario señala que las recetas oficiales de vLLM no funcionan en H200 debido a limitaciones de cuantización FP8 del caché KV en la arquitectura DSV3.