Un usuario busca recomendaciones sobre el mejor modelo de codificación para ejecutar en una configuración de hardware dedicada que consta de tres unidades Asus Ascent GX10 (GB10), esperando una concurrencia de 5 a 10 usuarios.
- La infraestructura propuesta utiliza vLLM combinado con llama-swap.
- Los modelos potenciales bajo consideración incluyen Qwen 3.5 122B, Qwen 3-coder y Deepseek V4 Flash DSpark.
- El usuario pregunta sobre el margen de escalado del contexto necesario por usuario y si tres unidades Spark son óptimas para esta configuración.