llama.cppにDeepSeek V4の量子化KVキャッシュ修正をfairydreamingがマージ

ユーザーのfairydreamingは、DeepSeek V4モデルに対する量子化キーバリュー（KV）キャッシュサポートを有効にするために、llama.cppブランチへのプルリクエストをマージしました。この変更にはPR #25247、#25303、および #25202からの修正が含まれていますが、いくつかのパディング調整は省略されています。

実装はKVキャッシュに対してQ8_0およびQ4_0の量子化タイプをサポートしています。
WikiText-2でのパープレキシティテストでは、f16ベースラインと比較して最小限の劣化にとどまりました。
最終的なパープレキシティスコアは、f16で4.0242、Q8_0で4.0304、Q4_0で4.0512でした。

これらの更新により、ユーザーは量子化キャッシュを使用してDeepSeek V4を実行し、メモリ使用量を削減しながら、フル精度モデルに近いパフォーマンスを維持することができます。