El autor argumenta que actualizar de una a dos GPUs ofrece mayores beneficios mediante el procesamiento paralelo en lugar de habilitar el uso de cuantizaciones de modelos más grandes y de mayor calidad. Para tareas de programación, la diferencia de calidad entre las cuantizaciones Q4 y Q6/Q8 es mínima, haciendo que un mayor contexto y throughput sean más valiosos.
- La configuración utiliza un modelo Qwen 27B como orquestador con contexto extenso para gestionar subtareas divididas.
- Los subagentes, como Qwen 35B-A3B, manejan tareas estrechas dentro de sus límites de contexto de 115k y reportan antes de terminar.
- Esta arquitectura permite que tres agentes se ejecuten en paralelo, aumentando significativamente el throughput general en comparación con un solo modelo.
- El sistema evita la descarga frecuente de modelos y la compactación manteniendo los subagentes activos para tareas específicas y bien definidas.
Este enfoque proporciona más valor práctico que intentar ejecutar modelos grandes de 100B+ en hardware inadecuado, reservando los modelos cerrados SOTA solo para revisiones expertas ocasionales.