Дополнительное бенчмарк-тестирование оценивает работу DeepSeek V4 Flash на двух GPU RTX PRO 6000 с использованием vLLM, сравнивая её производительность в реальных задачах кодирования с API-моделями, такими как Claude Sonnet и Opus. Исследование показывает, что хотя Opus и Fable сохраняют превосходное качество кода, DeepSeek V4 Flash достигает качества примерно на уровне Sonnet при значительно меньшем времени выполнения.

  • DeepSeek V4 Flash в среднем тратит 2 минуты на задачу, тогда как Sonnet 5 занимает около 6 минут, что делает его примерно в три раза медленнее.
  • В тесте использовался OpenCode для локальных моделей и Claude Code для API-моделей, чтобы отразить типичные настройки пользователей, а не изолированную производительность моделей.
  • Модели Qwen 3.6 были включены как точки привязки для сравнения в рамках системы бенчмаркинга.

Результаты указывают на то, что локальные модели становятся высококонкурентными по скорости и качеству при условии, что пользователи смогут оптимизировать накладные расходы плотного внимания.