llama.cpp KV 캐시 양자화로 DeepSeek-V4-Flash 계산 버퍼가 3배 절감

llama.cpp 빌드 9851에서 Bartowski의 DeepSeek-V4-Flash-MXFP4 GGUF를 테스트한 사용자는 KV 캐시 유형을 f16에서 q8_0으로 변경하면 CUDA0 계산 버퍼 사용량이 약 3.26배 감소한다는 것을 발견했습니다.

q8_0 캐시 양자화를 강제로 적용하면 f16이 사용 가능한 VRAM을 초과하는 시나리오에서도 모델을 성공적으로 로드할 수 있습니다.