Meilleur modèle de codage pour une configuration 3x Spark ?

Un utilisateur cherche des recommandations pour le meilleur modèle de codage à exécuter sur une configuration matérielle dédiée composée de trois unités Asus Ascent GX10 (GB10), avec une attente de 5 à 10 utilisateurs en simultané.

L'infrastructure proposée utilise vLLM combiné avec llama-swap.
Les modèles potentiels à l'étude incluent Qwen 3.5 122B, Qwen 3-coder et Deepseek V4 Flash DSpark.
L'utilisateur s'interroge sur la marge de contexte nécessaire par utilisateur et sur le fait que trois unités Spark sont optimales pour cette configuration.