Анализ спекулятивного декодирования с использованием моделей Gemma 4-31B-it показывает, что сильное квантование снижает частоту принятия токенов, поскольку основная модель становится менее согласованной с генератором черновиков. Тестирование квантований Q5_K_S, IQ4_XS, IQ3_M и IQ2_M выявляет, как глубина черновика влияет на производительность.
- Частота принятия снижается по мере увеличения глубины черновика для всех протестированных уровней квантования.
- Q5_K_S обеспечивает наибольшую точность, в то время как IQ4_XS и IQ3_M показывают практически идентичные результаты.
- Даже 2-битное IQ2_M сохраняет высокую частоту принятия для одно-токенных черновиков (84,5% при n=1).
- Архитектура оборудования существенно влияет на выигрыш в скорости, причем устройства CUDA получают наибольшую пользу от глубины черновика n=2.
Исследование показывает, что битрейты ниже могут эффективно поддерживать спекулятивное декодирование, позволяя пользователям запускать базовую модель объемом 31B с использованием всего 12 ГБ памяти при квантовании IQ2_M.