Un desarrollador ha implementado un kernel CUDA y conectado el indexador lightning DSA a llama.cpp, permitiendo la inferencia local del modelo DeepSeek V4 Flash con un contexto completo de 1M de tokens en hardware de consumo como la RTX 5090.

  • El parche reduce los requisitos del búfer de cómputo de ~67 GiB a 3.2 GiB con un contexto de 256K y permite el uso de contexto de 1M con solo 3.75 GiB de VRAM.
  • Las velocidades de preprocesamiento aumentan significativamente, alcanzando ~263 tokens/s con un contexto de 256K en comparación con los anteriores 56 tokens/s.
  • La corrección se verificó utilizando pruebas de aguja en pajar a profundidades del 10%, 50% y 90% en documentos de 100K, 512K y 1M de tokens.
  • Los cambios están disponibles en una rama personalizada con instrucciones de compilación, ya que no se proporcionan binarios precompilados.

Este trabajo permite a los usuarios ejecutar DeepSeek V4 Flash con contexto grande localmente sin requerir cantidades absurdas de VRAM.