Actualizaciones de rendimiento de DeepSeek V4 Pro en llama.cpp

Un usuario informa de un mayor rendimiento de DeepSeek V4 Pro ejecutándose localmente a través de una rama personalizada de llama.cpp que contiene varias correcciones y optimizaciones. El artículo comparte resultados de benchmarks de un sistema Epyc 9374F con RTX PRO 6000 Max-Q, señalando que el uso de memoria del modelo sigue siendo alto en las compilaciones principales.

Las pruebas de benchmark se realizaron utilizando un archivo GGUF de 794 GB en hardware con 12 x 96 GB de RAM DDR5 y 96 GB de VRAM.
La rama personalizada resuelve problemas de consumo excesivo de memoria causados por los búferes de cómputo del lightning indexer y los búferes temporales CUDA top-k.
llama.cpp principal actualmente tiene soporte roto para caché KV cuantizado y posibles errores respecto a la reutilización de caché de prompts y preparación de lotes.

El autor destaca que, aunque sus optimizaciones específicas mejoran la velocidad, los usuarios que dependen de llama.cpp principal pueden encontrar una sobrecarga de memoria significativa y errores funcionales.