Rilis b9840 llama.cpp memperkenalkan dukungan konversi untuk model DeepSeek V4, termasuk penanganan khusus untuk varian Pro. Pembaruan ini mengintegrasikan arsitektur baru ke dalam pustaka bersama berbagai optimasi internal dan perbaikan bug.

  • Menambahkan konversi dsv4, llm_graph_input_dsv4, dan fungsionalitas state save-load.
  • Mengaktifkan Flash Attention (FA) dengan mekanisme padding dan reuse graph yang diperlukan.
  • Mendukung pemrosesan multi-sekuens dan kemampuan checkpointing parsial.
  • Merilis biner untuk macOS, Linux, Android, Windows, dan openEuler di seluruh CPU, GPU, dan akselerator khusus seperti ROCm, SYCL, dan OpenVINO.

Rilis ini memungkinkan pengguna menjalankan model DeepSeek V4 secara lokal menggunakan llama.cpp pada berbagai konfigurasi perangkat keras.