fairydreaming menggabungkan perbaikan cache KV terkuantisasi untuk DeepSeek V4 di llama.cpp

Pengguna fairydreaming telah menggabungkan permintaan tarik ke cabang llama.cpp mereka untuk mengaktifkan dukungan cache kunci-nilai (KV) terkuantisasi untuk model DeepSeek V4. Perubahan tersebut memasukkan perbaikan dari PR #25247, #25303, dan #25202, dengan beberapa penyesuaian padding yang diabaikan.

Implementasi mendukung jenis kuantisasi Q8_0 dan Q4_0 untuk cache KV.
Uji perplexity pada WikiText-2 menunjukkan degradasi minimal dibandingkan dengan baseline f16.
Skor perplexity akhir adalah 4.0242 untuk f16, 4.0304 untuk Q8_0, dan 4.0512 untuk Q4_0.

Pembaruan ini memungkinkan pengguna menjalankan DeepSeek V4 dengan penggunaan memori yang lebih rendah melalui cache terkuantisasi sambil mempertahankan kinerja yang mendekati model presisi penuh.