Un usuario informa que ejecutar el modelo cuantizado de Bartowski DeepSeek-V4-Flash en formato MXFP4 en un sistema solo con CPU ofrece un rendimiento decepcionante. A pesar de tener 512 GB de memoria DDR4, la configuración solo logró alcanzar 3,2 tokens por segundo.
- El usuario probó la configuración en un procesador E5-2699v4 con una GTX 1060 utilizada para descargo de trabajo.
- El rendimiento se comparó contra GLM 5.2 (40B parámetros activos en Q4_K_XL), que corrió a 1,8 t/s.
- El usuario sospecha que el formato MXFP4 está causando el cuello de botella, estimando un ancho de banda de memoria efectivo de alrededor de 20 GB/s.
La publicación destaca posibles problemas de eficiencia con formatos de cuantización específicos para inferencia en CPU y busca alternativas de cuantización Q4.