Пользователь достиг 100 токенов в секунду на Qwen3.6-27B при Q8_0 с использованием двух видеокарт (RTX 5090 и RTX 3090 Ti). Переключение с режима layer split на режим tensor split увеличил пропускную способность с 70 до 100 т/с, при 70/30 распределении тензоров преимущество отдано 5090 для соответствия вычислительной мощности. Пропускная способность варьируется в зависимости от запроса и может достигать до 130 т/с в некоторых случаях.
100 т/с на Qwen3.6-27B Q8_0 с использованием 5090 и 3090 Ti в режиме tensor split-mode
Переведено с English → Русский