Анализ спекулятивного декодирования с использованием моделей Gemma 4-31B-it показывает, что сильное квантование снижает частоту принятия токенов, поскольку основная модель становится менее согласованной с генератором черновиков. Тестирование квантований Q5_K_S, IQ4_XS, IQ3_M и IQ2_M выявляет, как глубина черновика влияет на производительность.

  • Частота принятия снижается по мере увеличения глубины черновика для всех протестированных уровней квантования.
  • Q5_K_S обеспечивает наибольшую точность, в то время как IQ4_XS и IQ3_M показывают практически идентичные результаты.
  • Даже 2-битное IQ2_M сохраняет высокую частоту принятия для одно-токенных черновиков (84,5% при n=1).
  • Архитектура оборудования существенно влияет на выигрыш в скорости, причем устройства CUDA получают наибольшую пользу от глубины черновика n=2.

Исследование показывает, что битрейты ниже могут эффективно поддерживать спекулятивное декодирование, позволяя пользователям запускать базовую модель объемом 31B с использованием всего 12 ГБ памяти при квантовании IQ2_M.