Пользователь Reddit ищет советы по многомодельным бэкендам и переключению конфигураций

Пользователь Reddit планирует развернуть машину с несколькими GPU для обслуживания моделей Coding и Hermes, ища решения, которые позволяют гибко менять конфигурации без ручного вмешательства.

Пользователь хочет иметь возможность переключаться между запуском двух меньших моделей для менее интенсивных задач, одной большой модели на нескольких GPU или более крупной модели, ориентированной на кодирование, в зависимости от текущих потребностей.
Он оценил llamaswap, LiteLLM, llamactl и GPUStack, но столкнулся с проблемами гибкости, ориентации на предприятия или требований к тонкой настройке.
Аппаратная конфигурация включает до четырех 3090 на Threadripper 3945WX с ~128 ГБ ОЗУ DDR4.

Пользователь просит сообщество рекомендовать инструменты, которые минимизируют ручное вмешательство и позволяют автономную оркестровку через Hermes.