O usuário fairydreaming mesclou pull requests em seu branch do llama.cpp para habilitar o suporte a cache chave-valor (KV) quantizado para o modelo DeepSeek V4. As alterações incorporam correções dos PRs #25247, #25303 e #25202, com alguns ajustes de preenchimento omitidos.
- A implementação suporta tipos de quantização Q8_0 e Q4_0 para caches KV.
- Testes de perplexidade no WikiText-2 mostram degradação mínima em comparação com a linha de base f16.
- As pontuações finais de perplexidade foram 4.0242 para f16, 4.0304 para Q8_0 e 4.0512 para Q4_0.
Essas atualizações permitem que os usuários executem o DeepSeek V4 com uso reduzido de memória por meio de caches quantizados, mantendo o desempenho próximo ao modelo de precisão completa.