Пользователь ищет рекомендации по лучшей модели для кодинга, которую можно запустить на выделенном аппаратном обеспечении, состоящем из трёх устройств Asus Ascent GX10 (GB10), рассчитывая на одновременную работу 5–10 пользователей.

  • Предлагаемая инфраструктура использует vLLM в сочетании с llama-swap.
  • Среди рассматриваемых моделей: Qwen 3.5 122B, Qwen 3-coder и Deepseek V4 Flash DSpark.
  • Пользователь спрашивает о необходимом запасе контекста на каждого пользователя и является ли три устройства Spark оптимальными для данной конфигурации.