Atualizações de desempenho do DeepSeek V4 Pro no llama.cpp

Um usuário relata maior desempenho do DeepSeek V4 Pro rodando localmente por meio de um branch personalizado do llama.cpp contendo várias correções e otimizações. O artigo compartilha resultados de benchmarks de um sistema Epyc 9374F com RTX PRO 6000 Max-Q, observando que o uso de memória do modelo permanece alto nas builds principais.

Os testes de benchmark foram conduzidos usando um arquivo GGUF de 794GB em hardware com 12 x 96GB de RAM DDR5 e 96GB de VRAM.
O branch personalizado resolve problemas de consumo excessivo de memória causados pelos buffers de computação do lightning indexer e buffers temporários CUDA top-k.
O llama.cpp principal atualmente tem suporte quebrado para cache KV quantizado e possíveis bugs relacionados à reutilização do cache de prompts e preparação de batch.

O autor destaca que, embora suas otimizações específicas melhorem a velocidade, os usuários que dependem do llama.cpp principal podem encontrar overhead significativo de memória e bugs funcionais.