Acompanhamento: DeepSeek V4 Flash em 2x RTX PRO 6000 finaliza tarefas reais de codificação mais rápido que Sonnet e Opus, com qualidade aproximada à do Sonnet

Uma avaliação de benchmarking subsequente avalia o DeepSeek V4 Flash rodando em duas GPUs RTX PRO 6000 usando vLLM, comparando seu desempenho em tarefas reais de codificação contra modelos baseados em API como Claude Sonnet e Opus. O estudo descobre que, embora Opus e Fable mantenham qualidade superior de código, o DeepSeek V4 Flash atinge uma qualidade aproximadamente ao nível do Sonnet com tempos de parede significativamente mais rápidos.

DeepSeek V4 Flash tem uma média de 2 minutos por tarefa, enquanto o Sonnet 5 leva aproximadamente 6 minutos, tornando-o cerca de três vezes mais lento.
O teste utilizou OpenCode para modelos locais e Claude Code para modelos de API para refletir configurações típicas de usuários em vez do desempenho isolado do modelo.
Os modelos Qwen 3.6 foram incluídos como pontos de ancoragem para comparação dentro da estrutura de benchmarking.

Os resultados sugerem que os modelos locais estão se tornando altamente competitivos em velocidade e qualidade, desde que os usuários possam otimizar os custos de atenção densa.