Выпуск llama.cpp b9840 добавляет поддержку DeepSeek V4 и мультиплатформенные бинарники

Выпуск llama.cpp b9840 вводит поддержку конвертации для модели DeepSeek V4, включая специальную обработку варианта Pro. Это обновление интегрирует новую архитектуру в библиотеку наряду с различными внутренними оптимизациями и исправлениями ошибок.

Добавлена конвертация dsv4, llm_graph_input_dsv4 и функциональность сохранения/загрузки состояния.
Включена поддержка Flash Attention (FA) с необходимыми механизмами дополнения и повторного использования графа.
Поддержана обработка множественных последовательностей и возможности частичной проверки контрольных точек.
Выпущены бинарники для macOS, Linux, Android, Windows и openEuler для CPU, GPU и специализированных ускорителей, таких как ROCm, SYCL и OpenVINO.

Этот выпуск позволяет пользователям запускать модели DeepSeek V4 локально с помощью llama.cpp на широком спектре аппаратных конфигураций.