La versión b9840 de llama.cpp introduce soporte de conversión para el modelo DeepSeek V4, incluyendo manejo específico para la variante Pro. Esta actualización integra la nueva arquitectura en la biblioteca junto con varias optimizaciones internas y correcciones de errores.

  • Añadida la conversión dsv4, llm_graph_input_dsv4 y funcionalidad de estado de guardado/carga.
  • Habilitado Flash Attention (FA) con los mecanismos necesarios de relleno y reutilización del grafo.
  • Soporte para procesamiento de múltiples secuencias y capacidades de checkpointing parcial.
  • Binarios publicados para macOS, Linux, Android, Windows y openEuler en CPU, GPU y aceleradores especializados como ROCm, SYCL y OpenVINO.

Esta versión permite a los usuarios ejecutar modelos DeepSeek V4 localmente usando llama.cpp en una amplia variedad de configuraciones de hardware.