Автор успешно развернул GLM-5.2 со спекулятивным декодированием MTP на кластере из четырех узлов NVIDIA GB10 (DGX Spark), достигнув скорости около 9,4 токенов в секунду. Эта конфигурация использует vLLM с тензорным параллелизмом, портированные ядра Triton для разреженного MLA и детерминированное отсечение 15% экспертов для размещения весов AWQ-INT4. Ключевым выводом стало то, что исходные инструкции по сборке Docker-образа неполны, что требует восстановления недостающих патчей для файлов deep_gemm.py и sparse_attn_indexer.py. Автор также выявил, что использование любой версии vLLM, отличной от конкретного зафиксированного коммита, приводит к падению загрузки реальных весов AWQ из-за ошибок CUDA. Для воспроизведения среды пользователям необходимо применить пользовательский скрипт, который внедряет ядра и маршрутизирует функции в fallback-решения для sm12x. Преимущества производительности включают примерно двукратное увеличение скорости по сравнению с предыдущими реализациями llama.cpp, хотя пропускная способность между узлами остается узким местом для масштабирования с использованием двойных шин (dual-rail).
GLM-5.2 на 4x DGX Spark: Восстановление недостающих шагов сборки для MTP спекулятивного декодирования
Переведено с English → Русский