Автор утверждает, что переход с одного на два GPU приносит большую пользу за счет параллельной обработки, а не благодаря возможности использовать более крупные и качественные квантованные модели. Для задач программирования разница в качестве между квантованием Q4 и Q6/Q8 минимальна, поэтому увеличение контекстного окна и пропускной способности становится более ценным.
- В конфигурации используется модель Qwen 27B в роли оркестратора с обширным контекстом для управления разделенными подзадачами.
- Субагенты, такие как Qwen 35B-A3B, обрабатывают узкие задачи в пределах своих лимитов контекста 115k и возвращают результаты перед завершением.
- Эта архитектура позволяет трем агентам работать параллельно, что значительно увеличивает общую пропускную способность по сравнению с одной моделью.
- Система избегает частой выгрузки моделей и компактизации, оставляя субагентов активными для конкретных, четко определенных задач.
Этот подход обеспечивает большую практическую ценность, чем попытка запустить крупные модели 100B+ на недостаточном оборудовании, оставляя SOTA закрытые модели только для периодического экспертного обзора.