Uma avaliação de benchmarking subsequente avalia o DeepSeek V4 Flash rodando em duas GPUs RTX PRO 6000 usando vLLM, comparando seu desempenho em tarefas reais de codificação contra modelos baseados em API como Claude Sonnet e Opus. O estudo descobre que, embora Opus e Fable mantenham qualidade superior de código, o DeepSeek V4 Flash atinge uma qualidade aproximadamente ao nível do Sonnet com tempos de parede significativamente mais rápidos.

  • DeepSeek V4 Flash tem uma média de 2 minutos por tarefa, enquanto o Sonnet 5 leva aproximadamente 6 minutos, tornando-o cerca de três vezes mais lento.
  • O teste utilizou OpenCode para modelos locais e Claude Code para modelos de API para refletir configurações típicas de usuários em vez do desempenho isolado do modelo.
  • Os modelos Qwen 3.6 foram incluídos como pontos de ancoragem para comparação dentro da estrutura de benchmarking.

Os resultados sugerem que os modelos locais estão se tornando altamente competitivos em velocidade e qualidade, desde que os usuários possam otimizar os custos de atenção densa.