한 사용자가 다양한 수정 사항과 최적화가 포함된 커스텀 llama.cpp 브랜치를 통해 DeepSeek V4 Pro를 로컬에서 실행할 때 성능이 향상되었다고 보고했습니다. 이 기사는 Epyc 9374F 시스템과 RTX PRO 6000 Max-Q가 탑재된 환경에서의 벤치마크 결과를 공유하며, 메인라인 빌드에서는 모델의 메모리 사용량이 여전히 높다고 지적합니다.
- 벤치마크 테스트는 12 x 96GB DDR5 RAM 및 96GB VRAM을 갖춘 하드웨어에서 794GB GGUF 파일을 사용하여 수행되었습니다.
- 커스텀 브랜치는 라이트닝 인덱서 계산 버퍼와 CUDA top-k 임시 버퍼로 인한 과도한 메모리 소비 문제를 해결합니다.
- 메인라인 llama.cpp는 현재 깨진 양자화된 KV 캐시 지원과 프롬프트 캐시 재사용 및 배치 준비 관련 잠재적 버그를 가지고 있습니다.
저자는 특정 최적화가 속도를 개선하지만, 메인라인 llama.cpp에 의존하는 사용자는 상당한 메모리 오버헤드와 기능적 버그를 겪을 수 있다고 강조합니다.