Квантование KV-кэша в llama.cpp сокращает буфер вычислений DeepSeek-V4-Flash в 3 раза

Пользователь, тестирующий GGUF от Bartowski для DeepSeek-V4-Flash-MXFP4 в сборке llama.cpp 9851, обнаружил, что изменение типа KV-кэша с f16 на q8_0 снижает использование вычислительного буфера CUDA0 примерно в 3,26 раза.

Переключение с f16 на q8_0 уменьшило общий размер KV-кэша с ~425 МиБ до ~226 МиБ.
То же самое изменение снизило вычислительный буфер с 12 964 МиБ до 3 973 МиБ.
Это сокращение предотвращает ошибки переполнения памяти на картах с 32 ГБ при использовании больших длин контекста, таких как 32000.

Принудительное квантование KV-кэша до q8_0 позволяет модели успешно загружаться в сценариях, где f16 превысил бы доступную видеопамять.