Пользователь успешно оптимизировал модель DeepSeek V4 Flash для работы на NVIDIA GeForce RTX 5090 с использованием специфического форка llama.cpp. Конфигурация поддерживает окно контекста в 1 миллион токенов, сохраняя некоторый запас VRAM.
- Результаты бенчмарков показывают снижение пропускной способности генерации токенов (TG) с 22.7 до 21.3 токенов/секунду и снижение пропускной способности обработки запроса (PP) с 1105 до 927 токенов/секунду.
- Настройка использует GGUF-модель с квантованием Q2_K, MoE без единого KV кэша и устанавливает n-cpu-moe на 37.
- Пользователь достиг размера контекста в 1 миллион, используя размер unbathed (ub) 512, что укладывается в ограничения памяти RTX 5090.
- Оптимизация потребовала кастомного форка llama.cpp от пользователя GitHub fairydreaming и специфических флагов сборки CMake для архитектуры CUDA 120.
Эта конфигурация демонстрирует, что DeepSeek V4 Flash может работать с огромными окнами контекста на потребительском оборудовании, хотя и со сниженной пропускной способностью по сравнению с базовыми метриками.