Um desenvolvedor implementou um CUDA kernel e conectou o indexador lightning DSA ao llama.cpp, permitindo a inferência local do modelo DeepSeek V4 Flash com contexto completo de 1M de tokens em hardware de consumo como a RTX 5090.
- O patch reduz os requisitos do buffer de computação de ~67 GiB para 3.2 GiB com contexto de 256K e permite o uso de contexto de 1M com apenas 3.75 GiB de VRAM.
- As velocidades de prefill aumentam significativamente, atingindo ~263 tokens/s com contexto de 256K em comparação com os anteriores 56 tokens/s.
- A correção foi verificada usando testes needle-in-haystack nas profundidades de 10%, 50% e 90% em documentos de 100K, 512K e 1M de tokens.
- As alterações estão disponíveis em um branch personalizado com instruções de build, já que nenhum binário pré-compilado é fornecido.
Este trabalho permite que os usuários executem o DeepSeek V4 Flash com contexto grande localmente sem exigir quantidades absurdas de VRAM.