Usuario de Reddit busca consejo sobre backends multi-modelo e intercambio de configuración

Un usuario de Reddit está planeando desplegar una máquina con múltiples GPUs para servir modelos de codificación y Hermes, buscando soluciones que permitan un intercambio flexible de configuración sin intervención manual.

El usuario pretende alternar entre ejecutar dos modelos más pequeños para tareas menos intensivas, un modelo grande distribuido en múltiples GPUs, o un modelo de codificación más grande según las necesidades actuales.
Ha evaluado llamaswap, LiteLLM, llamactl y GPUStack pero encontró problemas con la flexibilidad, el enfoque empresarial o los requisitos de ajuste.
La configuración de hardware incluye hasta cuatro 3090s en un Threadripper 3945WX con ~128GB de RAM DDR4.

El usuario está pidiendo a la comunidad recomendaciones sobre herramientas que minimicen la intervención manual y permitan una orquestación autocontenida por Hermes.