Обновления производительности DeepSeek V4 Pro в llama.cpp

Пользователь сообщает о повышенной производительности DeepSeek V4 Pro, запущенной локально через пользовательскую ветку llama.cpp, содержащую различные исправления и оптимизации. В статье приводятся результаты бенчмарков на системе Epyc 9374F с RTX PRO 6000 Max-Q, отмечается, что потребление памяти модели остается высоким в основных сборках.

Бенчмарки проводились с использованием файла GGUF объемом 794 ГБ на оборудовании с 12 x 96 ГБ ОЗУ DDR5 и 96 ГБ VRAM.
Пользовательская ветка устраняет проблемы с чрезмерным потреблением памяти, вызванными буферами вычислений lightning indexer и временными буферами CUDA top-k.
В основной версии llama.cpp в настоящее время нарушена поддержка квантованного KV кэша и есть потенциальные ошибки, связанные с повторным использованием prompt кэша и подготовкой батчей.

Автор подчеркивает, что хотя его конкретные оптимизации улучшают скорость, пользователи, полагающиеся на основную версию llama.cpp, могут столкнуться со значительными накладными расходами по памяти и функциональными ошибками.