GLM 5.2 работает со скоростью 12 токенов/с на аппаратной платформе с двумя RTX 5090
Пользователь протестировал квантованную версию unsloth для GLM 5.2 на высокопроизводительной потребительской рабочей станции, оснащённой двумя GPU RTX 5090 и процессором Threadripper Pro на архитектуре Zen5. В системе использовалось 512 ГБ оперативной памяти DDR5 ECC, а конфигурация включала специфические флаги компиляции llama.cpp для активации оптимизаций CUDA и обработки единого адресного пространства (unified memory). Веса модели были загружены из квантования UD-Q5_K_S, что составило примерно 492 ГБ в совокупности по нескольким GGUF-файлам. Тестирование производительности включало запуск llama-server с размером контекста 32768 токенов и специфическими параметрами потоков для изоляции NUMA. Результаты бенчмарка стабильно показывали скорость вывода в 12 токенов в секунду во время чат-взаимодействий без использования агентных рабочих процессов. Дополнительные эксперименты выявили, что исключение некоторых флагов оптимизации, таких как flash attention или настройки NUMA, приводило к незначительным изменениям пропускной способности.