Un benchmark de suivi évalue DeepSeek V4 Flash exécuté sur deux GPU RTX PRO 6000 en utilisant vLLM, comparant ses performances dans des tâches de codage réelles par rapport aux modèles basés sur API comme Claude Sonnet et Opus. L'étude révèle que bien qu'Opus et Fable maintiennent une qualité de code supérieure, DeepSeek V4 Flash atteint une qualité approximativement au niveau de Sonnet avec des temps d'exécution significativement plus courts.

  • DeepSeek V4 Flash moyenne 2 minutes par tâche, tandis que Sonnet 5 prend environ 6 minutes, ce qui le rend environ trois fois plus lent.
  • Le test a utilisé OpenCode pour les modèles locaux et Claude Code pour les modèles API afin de refléter les configurations utilisateur typiques plutôt que la performance isolée des modèles.
  • Les modèles Qwen 3.6 ont été inclus comme points d'ancrage pour la comparaison au sein du cadre de benchmarking.

Les résultats suggèrent que les modèles locaux deviennent hautement compétitifs en vitesse et en qualité, à condition que les utilisateurs puissent optimiser les surcoûts liés à l'attention dense.