Выпуск llama.cpp b9840 вводит поддержку конвертации для модели DeepSeek V4, включая специальную обработку варианта Pro. Это обновление интегрирует новую архитектуру в библиотеку наряду с различными внутренними оптимизациями и исправлениями ошибок.
- Добавлена конвертация dsv4, llm_graph_input_dsv4 и функциональность сохранения/загрузки состояния.
- Включена поддержка Flash Attention (FA) с необходимыми механизмами дополнения и повторного использования графа.
- Поддержана обработка множественных последовательностей и возможности частичной проверки контрольных точек.
- Выпущены бинарники для macOS, Linux, Android, Windows и openEuler для CPU, GPU и специализированных ускорителей, таких как ROCm, SYCL и OpenVINO.
Этот выпуск позволяет пользователям запускать модели DeepSeek V4 локально с помощью llama.cpp на широком спектре аппаратных конфигураций.