el parche de llama.cpp habilita DeepSeek V4 Flash con contexto de 1M en RTX 5090

Un desarrollador ha implementado un kernel CUDA y conectado el indexador lightning DSA a llama.cpp, permitiendo la inferencia local del modelo DeepSeek V4 Flash con un contexto completo de 1M de tokens en hardware de consumo como la RTX 5090.

El parche reduce los requisitos del búfer de cómputo de ~67 GiB a 3.2 GiB con un contexto de 256K y permite el uso de contexto de 1M con solo 3.75 GiB de VRAM.
Las velocidades de preprocesamiento aumentan significativamente, alcanzando ~263 tokens/s con un contexto de 256K en comparación con los anteriores 56 tokens/s.
La corrección se verificó utilizando pruebas de aguja en pajar a profundidades del 10%, 50% y 90% en documentos de 100K, 512K y 1M de tokens.
Los cambios están disponibles en una rama personalizada con instrucciones de compilación, ya que no se proporcionan binarios precompilados.

Este trabajo permite a los usuarios ejecutar DeepSeek V4 Flash con contexto grande localmente sin requerir cantidades absurdas de VRAM.