Un usuario que prueba el GGUF de Bartowski para DeepSeek-V4-Flash-MXFP4 en la compilación 9851 de llama.cpp descubrió que cambiar el tipo de caché KV de f16 a q8_0 reduce el uso del búfer de cómputo CUDA0 aproximadamente 3,26 veces.

  • Cambiar de f16 a q8_0 redujo el caché KV total de ~425 MiB a ~226 MiB.
  • El mismo cambio redujo el búfer de cómputo de 12.964 MiB a 3.973 MiB.
  • Esta reducción previene errores de falta de memoria en tarjetas de 32GB al usar longitudes de contexto altas como 32000.

Forzar la cuantización del caché KV a q8_0 permite que el modelo se cargue con éxito en escenarios donde f16 excedería la VRAM disponible.