fairydreaming mescla correções de cache KV quantizado para DeepSeek V4 no llama.cpp

O usuário fairydreaming mesclou pull requests em seu branch do llama.cpp para habilitar o suporte a cache chave-valor (KV) quantizado para o modelo DeepSeek V4. As alterações incorporam correções dos PRs #25247, #25303 e #25202, com alguns ajustes de preenchimento omitidos.

A implementação suporta tipos de quantização Q8_0 e Q4_0 para caches KV.
Testes de perplexidade no WikiText-2 mostram degradação mínima em comparação com a linha de base f16.
As pontuações finais de perplexidade foram 4.0242 para f16, 4.0304 para Q8_0 e 4.0512 para Q4_0.

Essas atualizações permitem que os usuários executem o DeepSeek V4 com uso reduzido de memória por meio de caches quantizados, mantendo o desempenho próximo ao modelo de precisão completa.