Un usuario ha optimizado con éxito el modelo DeepSeek V4 Flash para ejecutarse en una NVIDIA GeForce RTX 5090 utilizando un fork específico de llama.cpp. La configuración admite una ventana de contexto de 1 millón de tokens mientras conserva algo de margen de VRAM.
- Los resultados del benchmark muestran que el rendimiento de generación de tokens (TG) cae de 22.7 a 21.3 tokens/segundo y el rendimiento de procesamiento de prompts (PP) disminuye de 1105 a 927 tokens/segundo.
- La configuración utiliza un modelo GGUF cuantizado Q2_K, MoE sin caché KV unificado y establece n-cpu-moe en 37.
- El usuario logró un tamaño de contexto de 1 millón utilizando un tamaño no agrupado (ub) de 512, ajustándose dentro de las limitaciones de memoria de la RTX 5090.
- La optimización requirió un fork personalizado de llama.cpp del usuario de GitHub fairydreaming y banderas de compilación CMake específicas para la arquitectura CUDA 120.
Esta configuración demuestra que DeepSeek V4 Flash puede operar con ventanas de contexto masivas en hardware de consumo, aunque con un rendimiento reducido en comparación con las métricas base.