Пользователь, тестирующий GGUF от Bartowski для DeepSeek-V4-Flash-MXFP4 в сборке llama.cpp 9851, обнаружил, что изменение типа KV-кэша с f16 на q8_0 снижает использование вычислительного буфера CUDA0 примерно в 3,26 раза.
- Переключение с f16 на q8_0 уменьшило общий размер KV-кэша с ~425 МиБ до ~226 МиБ.
- То же самое изменение снизило вычислительный буфер с 12 964 МиБ до 3 973 МиБ.
- Это сокращение предотвращает ошибки переполнения памяти на картах с 32 ГБ при использовании больших длин контекста, таких как 32000.
Принудительное квантование KV-кэша до q8_0 позволяет модели успешно загружаться в сценариях, где f16 превысил бы доступную видеопамять.