한 사용자가 llama.cpp의 특정 포크를 사용하여 NVIDIA GeForce RTX 5090 위에서 DeepSeek V4 Flash 모델을 실행하도록 최적화하는 데 성공했습니다. 이 구성은 VRAM 여유 공간을 일부 유지하면서 100만 토큰 컨텍스트 창을 지원합니다.
- 벤치마크 결과에 따르면 토큰 생성(TG) 처리량은 22.7에서 21.3 토큰/초로 떨어졌고, 프롬프트 처리(PP) 처리량은 1105에서 927 토큰/초로 감소했습니다.
- 이 설정은 Q2_K 양자화된 GGUF 모델, 통합 KV 캐시가 없는 MoE, 그리고 n-cpu-moe를 37로 설정하는 것을 활용합니다.
- 사용자는 배치되지 않은 크기(ub) 512를 사용하여 RTX 5090의 메모리 제약 내에 맞도록 100만 컨텍스트 크기를 달성했습니다.
- 최적화에는 GitHub 사용자 fairydreaming의 커스텀 llama.cpp 포크와 CUDA 아키텍처 120을 위한 특정 CMake 빌드 플래그가 필요했습니다.
이 구성은 베라인 메트릭스와 비교하여 처리량이 감소하지만, DeepSeek V4 Flash가 소비자용 하드웨어에서 거대한 컨텍스트 창으로 작동할 수 있음을 보여줍니다.