Pengguna fairydreaming telah menggabungkan permintaan tarik ke cabang llama.cpp mereka untuk mengaktifkan dukungan cache kunci-nilai (KV) terkuantisasi untuk model DeepSeek V4. Perubahan tersebut memasukkan perbaikan dari PR #25247, #25303, dan #25202, dengan beberapa penyesuaian padding yang diabaikan.
- Implementasi mendukung jenis kuantisasi Q8_0 dan Q4_0 untuk cache KV.
- Uji perplexity pada WikiText-2 menunjukkan degradasi minimal dibandingkan dengan baseline f16.
- Skor perplexity akhir adalah 4.0242 untuk f16, 4.0304 untuk Q8_0, dan 4.0512 untuk Q4_0.
Pembaruan ini memungkinkan pengguna menjalankan DeepSeek V4 dengan penggunaan memori yang lebih rendah melalui cache terkuantisasi sambil mempertahankan kinerja yang mendekati model presisi penuh.