Un post en Reddit informa que Gemma 4 QAT muestra una mejora significativa en el rendimiento al utilizar la cuantización de la caché KV, según lo medido en el conjunto de datos wikitext con un contexto de 16k. El usuario señala que sus límites de hardware limitan las pruebas a modelos de 31B e invita a otros a explorar los resultados.
Gemma 4 QAT responde mejor a la cuantización de la caché KV
Traducido del English → Español