あるユーザーが、3台のAsus Ascent GX10 (GB10) ユニットからなる専用ハードウェアセットアップ上で実行するための最適なコーディングモデルについて推奨を求めています。想定される同時実行数は5〜10名です。
- 提案されたインフラストラクチャは、vLLMとllama-swapの組み合わせを使用しています。
- 検討中の候補モデルには、Qwen 3.5 122B、Qwen 3-coder、Deepseek V4 Flash DSparkが含まれます。
- ユーザーは、ユーザーごとの必要なコンテキストの余裕のスケーリングについて、およびこの構成に対して3台のSparkユニットが最適かどうかを問い合わせています。