DeepSeek V4 Flash работает на RTX 5090 с контекстом 1M с помощью форка llama.cpp

Пользователь успешно оптимизировал модель DeepSeek V4 Flash для работы на NVIDIA GeForce RTX 5090 с использованием специфического форка llama.cpp. Конфигурация поддерживает окно контекста в 1 миллион токенов, сохраняя некоторый запас VRAM.

Результаты бенчмарков показывают снижение пропускной способности генерации токенов (TG) с 22.7 до 21.3 токенов/секунду и снижение пропускной способности обработки запроса (PP) с 1105 до 927 токенов/секунду.
Настройка использует GGUF-модель с квантованием Q2_K, MoE без единого KV кэша и устанавливает n-cpu-moe на 37.
Пользователь достиг размера контекста в 1 миллион, используя размер unbathed (ub) 512, что укладывается в ограничения памяти RTX 5090.
Оптимизация потребовала кастомного форка llama.cpp от пользователя GitHub fairydreaming и специфических флагов сборки CMake для архитектуры CUDA 120.

Эта конфигурация демонстрирует, что DeepSeek V4 Flash может работать с огромными окнами контекста на потребительском оборудовании, хотя и со сниженной пропускной способностью по сравнению с базовыми метриками.