O lançamento b9840 do llama.cpp introduz suporte à conversão para o modelo DeepSeek V4, incluindo tratamento específico para a variante Pro. Esta atualização integra a nova arquitetura na biblioteca junto com várias otimizações internas e correções de bugs.

  • Adicionada conversão dsv4, llm_graph_input_dsv4 e funcionalidade de estado de salvar/carregar.
  • Habilitado Flash Attention (FA) com mecanismos necessários de preenchimento e reutilização de gráfico.
  • Suporte ao processamento de múltiplas sequências e capacidades de checkpoint parcial.
  • Lançados binários para macOS, Linux, Android, Windows e openEuler em CPU, GPU e aceleradores especializados como ROCm, SYCL e OpenVINO.

Este lançamento permite que os usuários executem modelos DeepSeek V4 localmente usando o llama.cpp em uma ampla variedade de configurações de hardware.