후속 벤치마크는 vLLM을 사용하여 두 개의 RTX PRO 6000 GPU에서 실행되는 DeepSeek V4 Flash의 성능을 Claude Sonnet 및 Opus와 같은 API 기반 모델과의 실제 코딩 작업 대비 비교합니다. 연구 결과, Opus와 Fable이 더 우수한 코드 품질을 유지하는 반면, DeepSeek V4 Flash는 현저히 짧은 실제 소요 시간으로 Sonnet 수준의 품질에 근접함을 보여줍니다.
- DeepSeek V4 Flash는 작업당 평균 2분이 걸리는 반면, Sonnet 5는 약 6분이 소요되어 약 세 배 더 느립니다.
- 테스트는 일반적인 사용자 환경을 반영하기 위해 로컬 모델에는 OpenCode를, API 모델에는 Claude Code를 사용했습니다.
- 벤치마킹 프레임워크 내 비교 기준점으로 Qwen 3.6 모델이 포함되었습니다.
결과는 사용자가 밀집 어텐션 오버헤드를 최적화할 수 있다면 로컬 모델이 속도와 품질 모두에서 매우 경쟁력 있게 되고 있음을 시사합니다.