Двойной GPU: Параллелизм важнее размера модели для локальных LLM

Автор утверждает, что переход с одного на два GPU приносит большую пользу за счет параллельной обработки, а не благодаря возможности использовать более крупные и качественные квантованные модели. Для задач программирования разница в качестве между квантованием Q4 и Q6/Q8 минимальна, поэтому увеличение контекстного окна и пропускной способности становится более ценным.

В конфигурации используется модель Qwen 27B в роли оркестратора с обширным контекстом для управления разделенными подзадачами.
Субагенты, такие как Qwen 35B-A3B, обрабатывают узкие задачи в пределах своих лимитов контекста 115k и возвращают результаты перед завершением.
Эта архитектура позволяет трем агентам работать параллельно, что значительно увеличивает общую пропускную способность по сравнению с одной моделью.
Система избегает частой выгрузки моделей и компактизации, оставляя субагентов активными для конкретных, четко определенных задач.

Этот подход обеспечивает большую практическую ценность, чем попытка запустить крупные модели 100B+ на недостаточном оборудовании, оставляя SOTA закрытые модели только для периодического экспертного обзора.