Um usuário relata maior desempenho do DeepSeek V4 Pro rodando localmente por meio de um branch personalizado do llama.cpp contendo várias correções e otimizações. O artigo compartilha resultados de benchmarks de um sistema Epyc 9374F com RTX PRO 6000 Max-Q, observando que o uso de memória do modelo permanece alto nas builds principais.

  • Os testes de benchmark foram conduzidos usando um arquivo GGUF de 794GB em hardware com 12 x 96GB de RAM DDR5 e 96GB de VRAM.
  • O branch personalizado resolve problemas de consumo excessivo de memória causados pelos buffers de computação do lightning indexer e buffers temporários CUDA top-k.
  • O llama.cpp principal atualmente tem suporte quebrado para cache KV quantizado e possíveis bugs relacionados à reutilização do cache de prompts e preparação de batch.

O autor destaca que, embora suas otimizações específicas melhorem a velocidade, os usuários que dependem do llama.cpp principal podem encontrar overhead significativo de memória e bugs funcionais.