Um usuário testando o GGUF do Bartowski para DeepSeek-V4-Flash-MXFP4 na build 9851 do llama.cpp descobriu que alterar o tipo de cache KV de f16 para q8_0 reduz o uso do buffer de computação CUDA0 em aproximadamente 3,26 vezes.
- Mudar de f16 para q8_0 reduziu o cache KV total de ~425 MiB para ~226 MiB.
- A mesma mudança reduziu o buffer de computação de 12.964 MiB para 3.973 MiB.
- Essa redução previne erros de falta de memória em placas de 32GB ao usar comprimentos de contexto altos como 32000.
Forçar a quantização do cache KV para q8_0 permite que o modelo seja carregado com sucesso em cenários onde o f16 excederia a VRAM disponível.