ユーザーのfairydreamingは、DeepSeek V4モデルに対する量子化キーバリュー(KV)キャッシュサポートを有効にするために、llama.cppブランチへのプルリクエストをマージしました。この変更にはPR #25247、#25303、および #25202からの修正が含まれていますが、いくつかのパディング調整は省略されています。
- 実装はKVキャッシュに対してQ8_0およびQ4_0の量子化タイプをサポートしています。
- WikiText-2でのパープレキシティテストでは、f16ベースラインと比較して最小限の劣化にとどまりました。
- 最終的なパープレキシティスコアは、f16で4.0242、Q8_0で4.0304、Q4_0で4.0512でした。
これらの更新により、ユーザーは量子化キャッシュを使用してDeepSeek V4を実行し、メモリ使用量を削減しながら、フル精度モデルに近いパフォーマンスを維持することができます。