¿Mejor modelo de codificación para configuración con 3x Spark?

Un usuario busca recomendaciones sobre el mejor modelo de codificación para ejecutar en una configuración de hardware dedicada que consta de tres unidades Asus Ascent GX10 (GB10), esperando una concurrencia de 5 a 10 usuarios.

La infraestructura propuesta utiliza vLLM combinado con llama-swap.
Los modelos potenciales bajo consideración incluyen Qwen 3.5 122B, Qwen 3-coder y Deepseek V4 Flash DSpark.
El usuario pregunta sobre el margen de escalado del contexto necesario por usuario y si tres unidades Spark son óptimas para esta configuración.