Проверка скорости GLM-5.2, квантованной до UD-IQ1_M, с использованием llama.cpp показывает 579 t/s при предзаполнении на 8k контексте и 324 t/s при 57k контексте. Скорость декодирования остается стабильной на уровне 10.6 t/s более чем на 580 токенов, снижаясь до 9.37 t/s при 60k контексте.
Проверка скорости GLM-5.2 UD-IQ1_M на llama.cpp с 5090 и 3090 Ti
Переведено с English → Русский