Melhor modelo de codificação para configuração com 3x Spark?

Um usuário está buscando recomendações para o melhor modelo de codificação para executar em uma configuração de hardware dedicada composta por três unidades Asus Ascent GX10 (GB10), esperando uma concorrência de 5 a 10 usuários.

A infraestrutura proposta utiliza vLLM combinado com llama-swap.
Modelos potenciais sob consideração incluem Qwen 3.5 122B, Qwen 3-coder e Deepseek V4 Flash DSpark.
O usuário pergunta sobre a margem de escalonamento de contexto necessária por usuário e se três unidades Spark são ótimas para essa configuração.