El usuario fairydreaming ha fusionado solicitudes de extracción en su rama de llama.cpp para habilitar el soporte de caché clave-valor (KV) cuantizado para el modelo DeepSeek V4. Los cambios incorporan correcciones de PRs #25247, #25303 y #25202, con algunos ajustes de relleno omitidos.

  • La implementación soporta tipos de cuantización Q8_0 y Q4_0 para cachés KV.
  • Las pruebas de perplejidad en WikiText-2 muestran una degradación mínima en comparación con la línea base f16.
  • Las puntuaciones finales de perplejidad fueron 4.0242 para f16, 4.0304 para Q8_0 y 4.0512 para Q4_0.

Estas actualizaciones permiten a los usuarios ejecutar DeepSeek V4 con un uso reducido de memoria mediante cachés cuantizados mientras mantienen el rendimiento cercano al modelo de precisión completa.