DeepSeek V4 Flash berjalan di RTX 5090 dengan konteks 1M menggunakan fork llama.cpp

Seorang pengguna telah berhasil mengoptimalkan model DeepSeek V4 Flash untuk berjalan di NVIDIA GeForce RTX 5090 menggunakan fork spesifik dari llama.cpp. Konfigurasi ini mendukung jendela konteks 1 juta token sambil mempertahankan sedikit ruang VRAM.

Hasil benchmark menunjukkan throughput generasi Token (TG) turun dari 22,7 menjadi 21,3 token/detik dan throughput Pemrosesan Prompt (PP) menurun dari 1105 menjadi 927 token/detik.
Penyiapan ini memanfaatkan model GGUF yang dikuantisasi Q2_K, MoE tanpa cache KV terpadu, dan mengatur n-cpu-moe ke 37.
Pengguna mencapai ukuran konteks 1 juta dengan menggunakan ukuran unbatched (ub) sebesar 512, yang muat dalam batasan memori RTX 5090.
Optimisasi memerlukan fork llama.cpp khusus dari pengguna GitHub fairydreaming dan flag build CMake spesifik untuk arsitektur CUDA 120.

Konfigurasi ini menunjukkan bahwa DeepSeek V4 Flash dapat beroperasi dengan jendela konteks yang sangat besar pada perangkat keras konsumen, meskipun dengan throughput yang berkurang dibandingkan metrik baseline.