一位用户正在寻求推荐,以便在由三台 Asus Ascent GX10 (GB10) 单元组成的专用硬件设置上运行最佳的编码模型,预计并发用户数为 5-10 人。
- 提议的基础设施使用 vLLM 结合 llama-swap。
- 考虑中的潜在模型包括 Qwen 3.5 122B、Qwen 3-coder 和 Deepseek V4 Flash DSpark。
- 用户询问每个用户所需的上下文余量扩展,以及三台 Spark 单元是否适合此配置。
一位用户正在寻求推荐,以便在由三台 Asus Ascent GX10 (GB10) 单元组成的专用硬件设置上运行最佳的编码模型,预计并发用户数为 5-10 人。