llama.cpp 패치로 RTX 5090에서 1M 컨텍스트의 DeepSeek V4 Flash 지원

개발자가 CUDA 커널을 구현하고 DSA lightning indexer를 llama.cpp에 연결하여 RTX 5090과 같은 소비자용 하드웨어에서 DeepSeek V4 Flash 모델의 로컬 추론을 1M 토큰 컨텍스트로 가능하게 했습니다.

패치로 인해 256K 컨텍스트 시 계산 버퍼 요구량이 약 67 GiB에서 3.2 GiB로 줄어들었고, 3.75 GiB VRAM만으로 1M 컨텍스트 사용이 가능합니다.
프리필 속도가 크게 향상되어 256K 컨텍스트에서 초당 약 263 tok/s에 도달했습니다 (이전 대비 56 tok/s).
정확성은 100K, 512K, 1M 토큰 문서에 대해 각각 10%, 50%, 90% 깊이의 needle-in-haystack 테스트를 통해 검증되었습니다.
이 변경 사항은 빌드 지침이 포함된 커스텀 브랜치에서 사용 가능하지만, 사전 빌드된 바이너리는 제공되지 않습니다.

이 작업을 통해 사용자는 과도한 VRAM 없이도 대규모 컨텍스트의 DeepSeek V4 Flash를 로컬에서 실행할 수 있게 되었습니다.