Пользователь Reddit планирует развернуть машину с несколькими GPU для обслуживания моделей Coding и Hermes, ища решения, которые позволяют гибко менять конфигурации без ручного вмешательства.

  • Пользователь хочет иметь возможность переключаться между запуском двух меньших моделей для менее интенсивных задач, одной большой модели на нескольких GPU или более крупной модели, ориентированной на кодирование, в зависимости от текущих потребностей.
  • Он оценил llamaswap, LiteLLM, llamactl и GPUStack, но столкнулся с проблемами гибкости, ориентации на предприятия или требований к тонкой настройке.
  • Аппаратная конфигурация включает до четырех 3090 на Threadripper 3945WX с ~128 ГБ ОЗУ DDR4.

Пользователь просит сообщество рекомендовать инструменты, которые минимизируют ручное вмешательство и позволяют автономную оркестровку через Hermes.