한 사용자가 3대의 Asus Ascent GX10 (GB10) 유닛으로 구성된 전용 하드웨어 세트업에서 실행할 최적의 코딩 모델에 대한 추천을 구하고 있습니다. 동시 사용자 수는 5-10명으로 예상됩니다.
- 제안된 인프라는 vLLM과 llama-swap을 결합하여 사용합니다.
- 검토 중인 잠재적 모델에는 Qwen 3.5 122B, Qwen 3-coder, Deepseek V4 Flash DSpark가 포함됩니다.
- 사용자는 사용자당 필요한 컨텍스트 여유 공간의 스케일링과 이 구성에 대해 3대의 Spark 유닛이 최적인지 여부를 문의합니다.