fairydreaming fusiona correcciones de caché KV cuantizado para DeepSeek V4 en llama.cpp

El usuario fairydreaming ha fusionado solicitudes de extracción en su rama de llama.cpp para habilitar el soporte de caché clave-valor (KV) cuantizado para el modelo DeepSeek V4. Los cambios incorporan correcciones de PRs #25247, #25303 y #25202, con algunos ajustes de relleno omitidos.

La implementación soporta tipos de cuantización Q8_0 y Q4_0 para cachés KV.
Las pruebas de perplejidad en WikiText-2 muestran una degradación mínima en comparación con la línea base f16.
Las puntuaciones finales de perplejidad fueron 4.0242 para f16, 4.0304 para Q8_0 y 4.0512 para Q4_0.

Estas actualizaciones permiten a los usuarios ejecutar DeepSeek V4 con un uso reducido de memoria mediante cachés cuantizados mientras mantienen el rendimiento cercano al modelo de precisión completa.