QAT KV Cache Quantization для Gemma 4 31B показывает огромное улучшение

QAT KV cache quantization для Gemma 4 31B значительно снижает KL-разброс по сравнению с стандартными квантованиями. QAT q8_0 достигает максимального разброса в 1,5, что на порядок превосходит стандартное q4_0, а QAT q4_0 превосходит стандартное q8_0 по производительности, при значительно меньшем отклонении выходных данных и отсутствии катастрофических выбросов.