Um usuário está buscando recomendações para o melhor modelo de codificação para executar em uma configuração de hardware dedicada composta por três unidades Asus Ascent GX10 (GB10), esperando uma concorrência de 5 a 10 usuários.
- A infraestrutura proposta utiliza vLLM combinado com llama-swap.
- Modelos potenciais sob consideração incluem Qwen 3.5 122B, Qwen 3-coder e Deepseek V4 Flash DSpark.
- O usuário pergunta sobre a margem de escalonamento de contexto necessária por usuário e se três unidades Spark são ótimas para essa configuração.