Пользователи, отчитывающие скорости локальной инференции GLM 5.2 с использованием llama.cpp на 6x RTX 3090 с 128 ГБ DDR5 и i7-13700K, достигают скорости 7,8 токенов в секунду при размере контекста 90K с использованием квантования Q8_0. Обработка промпта происходит со скоростью примерно 40 токенов в секунду.