Подробный анализ показывает KLD (разделение Кульбака-Лейбера) квантования кэша KV для моделей Qwen3.6-35B-A3B и Gemma4-E2B. Результаты показывают, что квантование q8/q8 практически без потерь на обеих моделях, в то время как q4/q4 работает хорошо на Qwen, но приводит к серьезной деградации на Gemma. Варианты турбо-квантования показывают разнородную производительность: турбо3 и турбо2 обеспечивают экстремальную сжатие кэша, но при значительной потере точности.
Анализ KLD квантования кэша KV для моделей Qwen3.6-35B-A3B и Gemma4-E2B QAT
Переведено с English → Русский