Kuantisasi MXFP4 DeepSeek-V4-Flash berjalan lambat di CPU

Seorang pengguna melaporkan bahwa menjalankan model DeepSeek-V4-Flash yang dikuantisasi oleh Bartowski dalam format MXFP4 pada sistem hanya-CPU menghasilkan kinerja yang mengecewakan. Meskipun memiliki memori DDR4 512GB, konfigurasi tersebut hanya mencapai 3,2 token per detik.

Pengguna menguji konfigurasi pada prosesor E5-2699v4 dengan GTX 1060 yang digunakan untuk offloading.
Kinerja dibandingkan dengan GLM 5.2 (40B parameter aktif dalam Q4_K_XL), yang berjalan pada 1,8 t/s.
Pengguna menduga format MXFP4 menyebabkan bottleneck, memperkirakan bandwidth memori efektif sekitar 20GB/s.

Postingan tersebut menyoroti potensi masalah efisiensi dengan format kuantisasi tertentu untuk inferensi CPU dan mencari alternatif kuantisasi Q4.