Выпуск llama.cpp b9840 вводит поддержку конвертации для модели DeepSeek V4, включая специальную обработку варианта Pro. Это обновление интегрирует новую архитектуру в библиотеку наряду с различными внутренними оптимизациями и исправлениями ошибок.

  • Добавлена конвертация dsv4, llm_graph_input_dsv4 и функциональность сохранения/загрузки состояния.
  • Включена поддержка Flash Attention (FA) с необходимыми механизмами дополнения и повторного использования графа.
  • Поддержана обработка множественных последовательностей и возможности частичной проверки контрольных точек.
  • Выпущены бинарники для macOS, Linux, Android, Windows и openEuler для CPU, GPU и специализированных ускорителей, таких как ROCm, SYCL и OpenVINO.

Этот выпуск позволяет пользователям запускать модели DeepSeek V4 локально с помощью llama.cpp на широком спектре аппаратных конфигураций.