llama.cppのKVキャッシュ量子化でDeepSeek-V4-Flashの計算バッファが3分の1に

llama.cppビルド9851でBartowskiのDeepSeek-V4-Flash-MXFP4 GGUFをテストしたユーザーは、KVキャッシュタイプをf16からq8_0に変更することで、CUDA0の計算バッファ使用量が約3.26倍削減されることを発見しました。

q8_0キャッシュ量子化を強制することで、f16では利用可能なVRAMを超えてしまうシナリオでもモデルを正常にロードできます。