Un usuario de Reddit está planeando desplegar una máquina con múltiples GPUs para servir modelos de codificación y Hermes, buscando soluciones que permitan un intercambio flexible de configuración sin intervención manual.

  • El usuario pretende alternar entre ejecutar dos modelos más pequeños para tareas menos intensivas, un modelo grande distribuido en múltiples GPUs, o un modelo de codificación más grande según las necesidades actuales.
  • Ha evaluado llamaswap, LiteLLM, llamactl y GPUStack pero encontró problemas con la flexibilidad, el enfoque empresarial o los requisitos de ajuste.
  • La configuración de hardware incluye hasta cuatro 3090s en un Threadripper 3945WX con ~128GB de RAM DDR4.

El usuario está pidiendo a la comunidad recomendaciones sobre herramientas que minimicen la intervención manual y permitan una orquestación autocontenida por Hermes.