Um usuário otimizou com sucesso o modelo DeepSeek V4 Flash para rodar em uma NVIDIA GeForce RTX 5090 usando um fork específico do llama.cpp. A configuração suporta uma janela de contexto de 1 milhão de tokens enquanto mantém alguma margem de VRAM.

  • Os resultados do benchmark mostram a taxa de geração de tokens (TG) caindo de 22,7 para 21,3 tokens/segundo e a taxa de processamento de prompts (PP) diminuindo de 1105 para 927 tokens/segundo.
  • A configuração utiliza um modelo GGUF quantizado Q2_K, MoE sem cache KV unificado e define n-cpu-moe como 37.
  • O usuário alcançou um tamanho de contexto de 1 milhão usando um tamanho não agrupado (ub) de 512, cabendo dentro das restrições de memória da RTX 5090.
  • A otimização exigiu um fork personalizado do llama.cpp do usuário do GitHub fairydreaming e flags de compilação CMake específicas para a arquitetura CUDA 120.

Esta configuração demonstra que o DeepSeek V4 Flash pode operar com janelas de contexto massivas em hardware de consumo, embora com taxa de transferência reduzida em comparação às métricas base.