Um usuário relata que executar o modelo quantizado da Bartowski DeepSeek-V4-Flash no formato MXFP4 em um sistema apenas com CPU resulta em desempenho decepcionante. Apesar de ter 512 GB de memória DDR4, a configuração alcançou apenas 3,2 tokens por segundo.

  • O usuário testou a configuração em um processador E5-2699v4 com uma GTX 1060 usada para descarregamento.
  • O desempenho foi comparado ao GLM 5.2 (40B parâmetros ativos em Q4_K_XL), que rodou a 1,8 t/s.
  • O usuário suspeita que o formato MXFP4 está causando o gargalo, estimando uma largura de banda de memória efetiva de cerca de 20 GB/s.

A postagem destaca possíveis problemas de eficiência com formatos de quantização específicos para inferência em CPU e busca quantizações Q4 alternativas.