Автор демонстрирует запуск модели GLM-5.2 NVFP4 на четырех узлах NVIDIA GB10 DGX Spark с контекстным окном 128K, достигая пригодной для использования производительности обслуживания благодаря агрессивной оптимизации системы.
- Модель использует квантование NVFP4 для экспертных FFN MoE, сохраняя внимание и маршрутизатор в BF16, что уменьшает размер контрольной точки с 1.5 ТБ до 410 ГБ.
- Производительность достигает примерно 14.5-15.2 токенов в секунду при коротких промптах для кодогенерации и поддерживает около 13 ток/с на длинных контекстах (32K-112K).
- Настройка требует пользовательского форка vLLM с патчами DCP и B12X sparse MLA, а также сильно обрезанной конфигурации Ray для соответствия ограничениям единой памяти.
- KV-кэш BF16 при контексте 128K не поместился с достаточным запасом, что потребовало использования fp8_kv_cache и отключения определенных служб ОС.
Это руководство предоставляет жизнеспособный путь для развертывания крупномасштабных моделей на оборудовании Spark путем объединения параллелизма декодирования-контекста со значительным уменьшением памяти, хотя отмечается, что это нишевая настройка, не подходящая для пакетного обслуживания.