Valor de GPU dual: paralelismo sobre tamaño del modelo para LLMs locales

El autor argumenta que actualizar de una a dos GPUs ofrece mayores beneficios mediante el procesamiento paralelo en lugar de habilitar el uso de cuantizaciones de modelos más grandes y de mayor calidad. Para tareas de programación, la diferencia de calidad entre las cuantizaciones Q4 y Q6/Q8 es mínima, haciendo que un mayor contexto y throughput sean más valiosos.

La configuración utiliza un modelo Qwen 27B como orquestador con contexto extenso para gestionar subtareas divididas.
Los subagentes, como Qwen 35B-A3B, manejan tareas estrechas dentro de sus límites de contexto de 115k y reportan antes de terminar.
Esta arquitectura permite que tres agentes se ejecuten en paralelo, aumentando significativamente el throughput general en comparación con un solo modelo.
El sistema evita la descarga frecuente de modelos y la compactación manteniendo los subagentes activos para tareas específicas y bien definidas.

Este enfoque proporciona más valor práctico que intentar ejecutar modelos grandes de 100B+ en hardware inadecuado, reservando los modelos cerrados SOTA solo para revisiones expertas ocasionales.