Qwen3.6 27B на RTX 5090 достигает средней скорости 140 tok/s при настроенных параметрах llama.cpp

Пользователь делится подробными метриками производительности модели Qwen3.6 27B на системе с RTX 5090, AMD 9800X3D и 64 ГБ ОЗУ, запущенной через llama.cpp.

Настройка включала q8 KV cache, контекст 192k, MTP draft=10, spec-draft-p-min=0.5 и batch/ubatch 512.
Анализ 6454 образцов во время смешанной сессии агентного программирования показал среднюю пропускную способность 140.7 tok/s и медиану 134.9 tok/s.
Пиковая производительность достигала диапазона 120–130 tok/s, при этом длинный хвост распределения доходил до 233 tok/s.
Автор отмечает, что обработка гибридного внимания/SWA cache в llama.cpp пока не идеальна для этой модели, что вызывает предупреждения о повторной обработке промпта.

Пост подчеркивает, что средние значения могут скрывать вариации производительности, предоставляя реальное распределение скоростей, а не только заголовок.