Los usuarios han preguntado si ejecutar varias máquinas en paralelo proporciona ventajas para el manejo de contextos más grandes o una inferencia más rápida en modelos de lenguaje grande (LLM) locales. Si bien las máquinas individuales pueden manejar contextos más grandes con suficiente RAM, no existe un avance establecido que permita ganancias significativas de rendimiento al distribuir la inferencia entre múltiples máquinas para LLM locales.
¿Alguna ventaja en una configuración con múltiples máquinas para LLM locales?
Traducido del English → Español