La quantification MXFP4 de DeepSeek-V4-Flash est lente sur CPU

Un utilisateur signale que l'exécution du modèle DeepSeek-V4-Flash quantifié par Bartowski au format MXFP4 sur un système uniquement CPU donne des performances décevantes. Malgré la présence de 512 Go de mémoire DDR4, la configuration n'a atteint que 3,2 tokens par seconde.

L'utilisateur a testé la configuration sur un processeur E5-2699v4 avec une GTX 1060 utilisée pour le déchargement.
Les performances ont été comparées à celles de GLM 5.2 (40B paramètres actifs en Q4_K_XL), qui a tourné à 1,8 t/s.
L'utilisateur soupçonne que le format MXFP4 cause le goulot d'étranglement, estimant la bande passante mémoire effective autour de 20 Go/s.

Le post met en évidence des problèmes potentiels d'efficacité avec certains formats de quantification pour l'inférence sur CPU et cherche des alternatives de quantification Q4.