Un usuario informa de un mayor rendimiento de DeepSeek V4 Pro ejecutándose localmente a través de una rama personalizada de llama.cpp que contiene varias correcciones y optimizaciones. El artículo comparte resultados de benchmarks de un sistema Epyc 9374F con RTX PRO 6000 Max-Q, señalando que el uso de memoria del modelo sigue siendo alto en las compilaciones principales.
- Las pruebas de benchmark se realizaron utilizando un archivo GGUF de 794 GB en hardware con 12 x 96 GB de RAM DDR5 y 96 GB de VRAM.
- La rama personalizada resuelve problemas de consumo excesivo de memoria causados por los búferes de cómputo del lightning indexer y los búferes temporales CUDA top-k.
- llama.cpp principal actualmente tiene soporte roto para caché KV cuantizado y posibles errores respecto a la reutilización de caché de prompts y preparación de lotes.
El autor destaca que, aunque sus optimizaciones específicas mejoran la velocidad, los usuarios que dependen de llama.cpp principal pueden encontrar una sobrecarga de memoria significativa y errores funcionales.