llama.cppビルド9851でBartowskiのDeepSeek-V4-Flash-MXFP4 GGUFをテストしたユーザーは、KVキャッシュタイプをf16からq8_0に変更することで、CUDA0の計算バッファ使用量が約3.26倍削減されることを発見しました。

  • f16からq8_0への切り替えにより、KVキャッシュ全体が約425 MiBから約226 MiBに削減されました。
  • 同じ変更により、計算バッファが12,964 MiBから3,973 MiBに低下しました。
  • この削減により、32000のような長いコンテキスト長を使用する際に、32GBのカードでメモリ不足エラーが発生するのを防ぎます。

q8_0キャッシュ量子化を強制することで、f16では利用可能なVRAMを超えてしまうシナリオでもモデルを正常にロードできます。