Производительность разделения тензоров на eGPU с низкой пропускной способностью (TB3) и вопрос
Пользователь сообщает о тестировании режима разделения тензоров с двумя внешними GPU Morefine G1 4090M 16GB, подключенными через Thunderbolt 3 со скоростью 40 Гбит/с. В то время как режим разделения слоев обеспечивает высокие скорости токенов для префилла (PP) и генерации текста (TG), режим разделения тензоров насыщает обе карты во время TG, но страдает от низкой производительности PP из-за насыщения пропускной способности.