Patch llama.cpp mengaktifkan DeepSeek V4 Flash dengan konteks 1M pada RTX 5090

Seorang pengembang telah mengimplementasikan kernel CUDA dan menghubungkan indexer lightning DSA ke llama.cpp, memungkinkan inferensi lokal model DeepSeek V4 Flash dengan konteks penuh 1M token pada perangkat konsumen seperti RTX 5090.

Patch ini mengurangi persyaratan buffer komputasi dari ~67 GiB menjadi 3.2 GiB pada konteks 256K dan memungkinkan penggunaan konteks 1M dengan hanya 3.75 GiB VRAM.
Kecepatan praisi meningkat secara signifikan, mencapai ~263 tok/s pada konteks 256K dibandingkan dengan 56 tok/s sebelumnya.
Kebenaran telah diverifikasi menggunakan tes needle-in-haystack pada kedalaman 10%, 50%, dan 90% di seluruh dokumen 100K, 512K, dan 1M token.
Perubahan tersedia di cabang kustom dengan instruksi build, karena tidak ada biner pra-build yang disediakan.

Pekerjaan ini memungkinkan pengguna menjalankan DeepSeek V4 Flash konteks besar secara lokal tanpa memerlukan jumlah VRAM yang absurd.