Pembaruan kinerja DeepSeek V4 Pro di llama.cpp

Seorang pengguna melaporkan peningkatan kinerja untuk DeepSeek V4 Pro yang dijalankan secara lokal melalui cabang kustom llama.cpp yang berisi berbagai perbaikan dan optimasi. Artikel ini membagikan hasil benchmark dari sistem Epyc 9374F dengan RTX PRO 6000 Max-Q, mencatat bahwa penggunaan memori model tetap tinggi di build utama.

Pengujian benchmark dilakukan menggunakan file GGUF berukuran 794GB pada perangkat keras dengan 12 x 96GB RAM DDR5 dan 96GB VRAM.
Cabang kustom ini menyelesaikan masalah konsumsi memori berlebihan yang disebabkan oleh buffer komputasi indexer lightning dan buffer sementara top-k CUDA.
llama.cpp utama saat ini memiliki dukungan KV cache terkuantisasi yang rusak serta potensi bug terkait penggunaan ulang cache prompt dan persiapan batch.

Penulis menyoroti bahwa meskipun optimasi spesifiknya meningkatkan kecepatan, pengguna yang mengandalkan llama.cpp utama mungkin mengalami overhead memori yang signifikan dan bug fungsional.