Um usuário testando o GGUF do Bartowski para DeepSeek-V4-Flash-MXFP4 na build 9851 do llama.cpp descobriu que alterar o tipo de cache KV de f16 para q8_0 reduz o uso do buffer de computação CUDA0 em aproximadamente 3,26 vezes.

  • Mudar de f16 para q8_0 reduziu o cache KV total de ~425 MiB para ~226 MiB.
  • A mesma mudança reduziu o buffer de computação de 12.964 MiB para 3.973 MiB.
  • Essa redução previne erros de falta de memória em placas de 32GB ao usar comprimentos de contexto altos como 32000.

Forçar a quantização do cache KV para q8_0 permite que o modelo seja carregado com sucesso em cenários onde o f16 excederia a VRAM disponível.