Конфигурация развертывания SGLang в Docker для GLM-5.2-FP8 на HGX-H200

Пользователь делится конфигурацией Docker для запуска GLM-5.2-FP8 на оборудовании HGX-H200 с использованием SGLang. Настройка обеспечивает длину контекста 262k и скорость 70 токенов в секунду при параллелизме по тензорам, равном 8, с долей использования памяти 0.83. Пользователь отмечает, что официальные рецепты vLLM не работают на H200 из-за ограничений квантования FP8 для KV-кэша в архитектуре DSV3.

Бенчмарки

Бенчмарк	Модель	Результат
LMSYS Arena (Elo)	GLM-5.2-FP8	—

Бенчмарк

Модель

Результат

LMSYS Arena (Elo)

GLM-5.2-FP8

—