개발자가 CUDA 커널을 구현하고 DSA lightning indexer를 llama.cpp에 연결하여 RTX 5090과 같은 소비자용 하드웨어에서 DeepSeek V4 Flash 모델의 로컬 추론을 1M 토큰 컨텍스트로 가능하게 했습니다.
- 패치로 인해 256K 컨텍스트 시 계산 버퍼 요구량이 약 67 GiB에서 3.2 GiB로 줄어들었고, 3.75 GiB VRAM만으로 1M 컨텍스트 사용이 가능합니다.
- 프리필 속도가 크게 향상되어 256K 컨텍스트에서 초당 약 263 tok/s에 도달했습니다 (이전 대비 56 tok/s).
- 정확성은 100K, 512K, 1M 토큰 문서에 대해 각각 10%, 50%, 90% 깊이의 needle-in-haystack 테스트를 통해 검증되었습니다.
- 이 변경 사항은 빌드 지침이 포함된 커스텀 브랜치에서 사용 가능하지만, 사전 빌드된 바이너리는 제공되지 않습니다.
이 작업을 통해 사용자는 과도한 VRAM 없이도 대규모 컨텍스트의 DeepSeek V4 Flash를 로컬에서 실행할 수 있게 되었습니다.