fairydreaming이 llama.cpp에 DeepSeek V4용 양자화된 KV 캐시 수정 사항을 병합

사용자 fairydreaming은 DeepSeek V4 모델에 대한 양자화된 키-값(KV) 캐시 지원을 활성화하기 위해 llama.cpp 브랜치에 풀 리퀘스트를 병합했습니다. 이 변경 사항에는 PR #25247, #25303 및 #25202에서의 수정 사항이 포함되었으나, 일부 패딩 조정은 생략되었습니다.

구현은 KV 캐시에 대해 Q8_0 및 Q4_0 양자화 유형을 지원합니다.
WikiText-2에 대한 퍼플렉시티 테스트에서는 f16 기준선과 비교하여 최소한의 성능 저하가 나타났습니다.
최종 퍼플렉시티 점수는 f16의 경우 4.0242, Q8_0의 경우 4.0304, Q4_0의 경우 4.0512였습니다.

이 업데이트를 통해 사용자는 양자화된 캐시를 사용하여 DeepSeek V4를 실행하고 메모리 사용을 줄이면서도 전체 정밀도 모델에 가까운 성능을 유지할 수 있습니다.