Пользователь Reddit планирует развернуть машину с несколькими GPU для обслуживания моделей Coding и Hermes, ища решения, которые позволяют гибко менять конфигурации без ручного вмешательства.
- Пользователь хочет иметь возможность переключаться между запуском двух меньших моделей для менее интенсивных задач, одной большой модели на нескольких GPU или более крупной модели, ориентированной на кодирование, в зависимости от текущих потребностей.
- Он оценил llamaswap, LiteLLM, llamactl и GPUStack, но столкнулся с проблемами гибкости, ориентации на предприятия или требований к тонкой настройке.
- Аппаратная конфигурация включает до четырех 3090 на Threadripper 3945WX с ~128 ГБ ОЗУ DDR4.
Пользователь просит сообщество рекомендовать инструменты, которые минимизируют ручное вмешательство и позволяют автономную оркестровку через Hermes.