Пользователь пытается запустить модель Qwen3.5 122B с помощью llama-server на системе, оснащенной GPU RTX 5090 и 64 ГБ оперативной памяти. Сообщаемая скорость инференса начинается примерно с 6 токенов в секунду (tps) и постепенно увеличивается до около 20 tps во время генерации.
- Конфигурация оборудования: NVIDIA RTX 5090 с 32 ГБ VRAM и 64 ГБ системной RAM.
- Вариант модели: Qwen3.5-122B-A10B квантована как Q5_K_S.
- Метрики производительности: Начальная пропускная способность ~6 tps, возрастающая до ~20 tps в ходе генерации.
- Настройки инференса: Использовался llama-server с включенным flash attention, 16 потоками и длиной контекста 100 000 токенов.
Пользователь ищет советы по дальнейшей оптимизации этой конфигурации для достижения более высокой скорости генерации токенов.