llama.cpp 포크로 RTX 5090에서 1M 컨텍스트로 DeepSeek V4 Flash 실행

한 사용자가 llama.cpp의 특정 포크를 사용하여 NVIDIA GeForce RTX 5090 위에서 DeepSeek V4 Flash 모델을 실행하도록 최적화하는 데 성공했습니다. 이 구성은 VRAM 여유 공간을 일부 유지하면서 100만 토큰 컨텍스트 창을 지원합니다.

벤치마크 결과에 따르면 토큰 생성(TG) 처리량은 22.7에서 21.3 토큰/초로 떨어졌고, 프롬프트 처리(PP) 처리량은 1105에서 927 토큰/초로 감소했습니다.
이 설정은 Q2_K 양자화된 GGUF 모델, 통합 KV 캐시가 없는 MoE, 그리고 n-cpu-moe를 37로 설정하는 것을 활용합니다.
사용자는 배치되지 않은 크기(ub) 512를 사용하여 RTX 5090의 메모리 제약 내에 맞도록 100만 컨텍스트 크기를 달성했습니다.
최적화에는 GitHub 사용자 fairydreaming의 커스텀 llama.cpp 포크와 CUDA 아키텍처 120을 위한 특정 CMake 빌드 플래그가 필요했습니다.

이 구성은 베라인 메트릭스와 비교하여 처리량이 감소하지만, DeepSeek V4 Flash가 소비자용 하드웨어에서 거대한 컨텍스트 창으로 작동할 수 있음을 보여줍니다.