Seorang pengguna melaporkan bahwa menjalankan model DeepSeek-V4-Flash yang dikuantisasi oleh Bartowski dalam format MXFP4 pada sistem hanya-CPU menghasilkan kinerja yang mengecewakan. Meskipun memiliki memori DDR4 512GB, konfigurasi tersebut hanya mencapai 3,2 token per detik.

  • Pengguna menguji konfigurasi pada prosesor E5-2699v4 dengan GTX 1060 yang digunakan untuk offloading.
  • Kinerja dibandingkan dengan GLM 5.2 (40B parameter aktif dalam Q4_K_XL), yang berjalan pada 1,8 t/s.
  • Pengguna menduga format MXFP4 menyebabkan bottleneck, memperkirakan bandwidth memori efektif sekitar 20GB/s.

Postingan tersebut menyoroti potensi masalah efisiensi dengan format kuantisasi tertentu untuk inferensi CPU dan mencari alternatif kuantisasi Q4.