Двойной GPU: Параллелизм важнее размера модели для локальных LLM
Автор утверждает, что переход с одного на два GPU приносит большую пользу за счет параллельной обработки, а не благодаря возможности использовать более крупные и качественные квантованные модели. Для задач программирования разница в качестве между квантованием Q4 и Q6/Q8 минимальна, поэтому увеличение контекстного окна и пропускной способности становится более ценным.