патч llama.cpp включает DeepSeek V4 Flash с контекстом 1M на RTX 5090

Разработчик реализовал CUDA kernel и интегрировал lightning indexer DSA в llama.cpp, что позволяет выполнять локальный инференс модели DeepSeek V4 Flash с полным контекстом из 1M токенов на потребительском оборудовании, таком как RTX 5090.

Патч снижает требования к вычислительному буферу с ~67 GiB до 3.2 GiB при контексте 256K и позволяет использовать контекст 1M всего с 3.75 GiB VRAM.
Скорость префайла значительно увеличивается, достигая ~263 токенов/с при контексте 256K по сравнению с предыдущими 56 токенами/с.
Корректность была проверена с помощью тестов «иголка в стоге сена» на глубинах 10%, 50% и 90% для документов объемом 100K, 512K и 1M токенов.
Изменения доступны в пользовательской ветке с инструкциями по сборке, так как готовые бинарные файлы не предоставляются.

Эта работа позволяет пользователям запускать DeepSeek V4 Flash с большим контекстом локально без необходимости в огромном количестве VRAM.