Применение хаков увеличивает скорость GLM5.2 с 2,5 до более чем 50 ток/с

Пользователь достиг более чем 50 токенов в секунду для GLM5.2 на своей системе GH200, объединив головку MTP из репозитория zai по FP8 с квантованной моделью AWQ-INT4 от CyanKiwi. Такой гибридный подход, реализованный через скрипт слияния и модифицированную версию vLLM, достиг максимальной скорости около 55 ток/с при 4-кратной конкуренции и около 45 ток/с при одиночной инференсе, с потоковым перемещением из ОЗУ в ОЗУ.