Una evaluación de seguimiento compara el rendimiento de DeepSeek V4 Flash ejecutándose en dos GPUs RTX PRO 6000 usando vLLM, contrastándolo con modelos basados en API como Claude Sonnet y Opus en tareas de codificación del mundo real. El estudio encuentra que, aunque Opus y Fable mantienen una calidad de código superior, DeepSeek V4 Flash alcanza una calidad aproximadamente al nivel de Sonnet con tiempos de pared significativamente más rápidos.

  • DeepSeek V4 Flash promedia 2 minutos por tarea, mientras que Sonnet 5 toma aproximadamente 6 minutos, haciéndolo aproximadamente tres veces más lento.
  • La prueba utilizó OpenCode para modelos locales y Claude Code para modelos API para reflejar configuraciones típicas de usuarios en lugar del rendimiento aislado del modelo.
  • Los modelos Qwen 3.6 se incluyeron como puntos de anclaje para la comparación dentro del marco de benchmarking.

Los resultados sugieren que los modelos locales están volviéndose altamente competitivos en velocidad y calidad, siempre que los usuarios puedan optimizar los sobrecostos de atención densa.