Un utilisateur cherche des recommandations pour le meilleur modèle de codage à exécuter sur une configuration matérielle dédiée composée de trois unités Asus Ascent GX10 (GB10), avec une attente de 5 à 10 utilisateurs en simultané.

  • L'infrastructure proposée utilise vLLM combiné avec llama-swap.
  • Les modèles potentiels à l'étude incluent Qwen 3.5 122B, Qwen 3-coder et Deepseek V4 Flash DSpark.
  • L'utilisateur s'interroge sur la marge de contexte nécessaire par utilisateur et sur le fait que trois unités Spark sont optimales pour cette configuration.