HauhauCS выпустил две новые несексуризированные сбалансированные версии моделей Gemma 4: Gemma4-26B-A4B и Gemma4-31B-QAT. Оба варианта включают черновики для многозапросного предсказания (MTP) для обеспечения спекулятивного декодирования, что приводит к значительному ускорению вывода. Модель 26B-A4B демонстрирует примерно 35% прирост скорости, а модель 31B — увеличение на 53%, при этом качество вывода остаётся идентичным благодаря механизму черновиков модели. Эти релизы используют квантование, учитывающее QAT, что делает формат Q4_K_M оптимальным, поскольку более высокая точность не даёт улучшения качества для этих конкретных моделей. Модель 26B-A4B представляет собой архитектуру Mixture of Experts с примерно 4 миллиардами активных параметров на токен, тогда как вариант 31B является плотной моделью, предлагающей более высокие возможности для пользователей с достаточным объёмом VRAM. Обе модели поддерживают работу с изображениями через файлы mmproj и сохраняют контекстное окно длиной 262K токенов. Автор отмечает, что тестирование GenRM не выявило ни одного отказа в ответе на 465 запросов, подтверждая их несексуризированный характер.
Выпущены несексуризированные сбалансированные Gemma4-26B-A4B и 31B-QAT со ускорением за счёт MTP
Переведено с English → Русский