Un desarrollador ha implementado un kernel CUDA y conectado el indexador lightning DSA a llama.cpp, permitiendo la inferencia local del modelo DeepSeek V4 Flash con un contexto completo de 1M de tokens en hardware de consumo como la RTX 5090.
- El parche reduce los requisitos del búfer de cómputo de ~67 GiB a 3.2 GiB con un contexto de 256K y permite el uso de contexto de 1M con solo 3.75 GiB de VRAM.
- Las velocidades de preprocesamiento aumentan significativamente, alcanzando ~263 tokens/s con un contexto de 256K en comparación con los anteriores 56 tokens/s.
- La corrección se verificó utilizando pruebas de aguja en pajar a profundidades del 10%, 50% y 90% en documentos de 100K, 512K y 1M de tokens.
- Los cambios están disponibles en una rama personalizada con instrucciones de compilación, ya que no se proporcionan binarios precompilados.
Este trabajo permite a los usuarios ejecutar DeepSeek V4 Flash con contexto grande localmente sin requerir cantidades absurdas de VRAM.