llama.cpp 빌드 9851에서 Bartowski의 DeepSeek-V4-Flash-MXFP4 GGUF를 테스트한 사용자는 KV 캐시 유형을 f16에서 q8_0으로 변경하면 CUDA0 계산 버퍼 사용량이 약 3.26배 감소한다는 것을 발견했습니다.

  • f16에서 q8_0으로 전환하여 총 KV 캐시가 약 425 MiB에서 약 226 MiB로 줄었습니다.
  • 동일한 변경으로 계산 버퍼가 12,964 MiB에서 3,973 MiB로 감소했습니다.
  • 이 감소는 32000과 같은 긴 컨텍스트 길이를 사용할 때 32GB 카드의 메모리 부족 오류를 방지합니다.

q8_0 캐시 양자화를 강제로 적용하면 f16이 사용 가능한 VRAM을 초과하는 시나리오에서도 모델을 성공적으로 로드할 수 있습니다.