media r/LocalLLaMA · hace 2 h · fuente: hace 9 d · open_models

Configuración de implementación Docker SGLang GLM-5.2-FP8 HGX-H200

Traducido del English → Español

Un usuario comparte una configuración de Docker para ejecutar GLM-5.2-FP8 en hardware HGX-H200 utilizando SGLang. La configuración logra una longitud de contexto de 262k y 70 tokens por segundo con paralelismo tensorial de 8, usando una fracción de memoria de 0.83. El usuario señala que las recetas oficiales de vLLM no funcionan en H200 debido a limitaciones de cuantización FP8 del caché KV en la arquitectura DSV3.

Importancia 2/3 r/LocalLLaMA Zhipu AI Code generation Evaluation & benchmarks Inference efficiency

Benchmarks

Benchmark	Modelo	Puntuación
LMSYS Arena (Elo)	GLM-5.2-FP8	—

Leer original