Пользователь делится конфигурацией Docker для запуска GLM-5.2-FP8 на оборудовании HGX-H200 с использованием SGLang. Настройка обеспечивает длину контекста 262k и скорость 70 токенов в секунду при параллелизме по тензорам, равном 8, с долей использования памяти 0.83. Пользователь отмечает, что официальные рецепты vLLM не работают на H200 из-за ограничений квантования FP8 для KV-кэша в архитектуре DSV3.