Um usuário relata que executar o modelo quantizado da Bartowski DeepSeek-V4-Flash no formato MXFP4 em um sistema apenas com CPU resulta em desempenho decepcionante. Apesar de ter 512 GB de memória DDR4, a configuração alcançou apenas 3,2 tokens por segundo.
- O usuário testou a configuração em um processador E5-2699v4 com uma GTX 1060 usada para descarregamento.
- O desempenho foi comparado ao GLM 5.2 (40B parâmetros ativos em Q4_K_XL), que rodou a 1,8 t/s.
- O usuário suspeita que o formato MXFP4 está causando o gargalo, estimando uma largura de banda de memória efetiva de cerca de 20 GB/s.
A postagem destaca possíveis problemas de eficiência com formatos de quantização específicos para inferência em CPU e busca quantizações Q4 alternativas.