Un análisis detallado mapea la KLD (divergencia de Kullback-Leibler) de la cuantización del KV cache para los modelos Qwen3.6-35B-A3B y Gemma4-E2B. Los resultados muestran que la cuantización q8/q8 es casi sin pérdidas en ambos modelos, mientras que q4/q4 funciona bien en Qwen pero causa una degradación severa en Gemma. Las variantes de cuantización Turbo muestran un rendimiento mixto, con turbo3 y turbo2 permitiendo una compresión extrema del cache a costa significativa de la precisión.
Análisis KLD de la cuantización del KV Cache para Qwen3.6-35B-A3B y Gemma4-E2B QAT
Traducido del English → Español