有用户报告称,在纯CPU系统上以MXFP4格式运行Bartowski量化的DeepSeek-V4-Flash模型时,性能令人失望。尽管拥有512GB的DDR4内存,该配置仅达到了每秒3.2个token的速度。

  • 用户在配备用于卸载的GTX 1060的E5-2699v4处理器上测试了该配置。
  • 性能与GLM 5.2(Q4_K_XL格式下40B活跃参数)进行了对比,后者运行速度为1.8 t/s。
  • 用户怀疑MXFP4格式导致了瓶颈,估计有效内存带宽约为20GB/s。

该帖子强调了特定量化格式在CPU推理中潜在的效率问题,并寻求替代的Q4量化方案。