あるユーザーは、CPUのみのシステムでBartowski量子化されたDeepSeek-V4-FlashモデルをMXFP4形式で実行すると、期待外れの性能しか得られないと報告しています。DDR4メモリ512GBを搭載しているにもかかわらず、この構成では毎秒3.2トークンという結果にとどまりました。

  • ユーザーはE5-2699v4プロセッサとオフロード用に使用されたGTX 1060でこの構成をテストしました。
  • パフォーマンスはGLM 5.2(Q4_K_XLで40Bのアクティブパラメータ)と比較され、こちらは毎秒1.8トークンでした。
  • ユーザーはMXFP4形式がボトルネックを引き起こしている可能性を疑っており、実効メモリ帯域幅は約20GB/sと推定しています。

この投稿は、CPU推論における特定の量子化形式の効率性の問題を示唆し、代替となるQ4量子化を探求しています。