Qwen3.6 27B na RTX 5090 atinge média de 140 tok/s com configurações ajustadas do llama.cpp

Um usuário compartilha métricas detalhadas de desempenho ao rodar o modelo Qwen3.6 27B em um sistema com RTX 5090, AMD 9800X3D e 64GB de RAM usando llama.cpp.

O ajuste envolveu q8 KV cache, contexto de 192k, MTP draft=10, spec-draft-p-min=0.5 e batch/ubatch 512.
A análise de 6.454 amostras durante uma sessão mista de programação agéntica mostrou uma taxa média de 140.7 tok/s e mediana de 134.9 tok/s.
O pico de desempenho atingiu a faixa de 120-130 tok/s com uma cauda longa se estendendo até 233 tok/s.
O autor nota que o tratamento de cache de atenção híbrida/SWA no llama.cpp ainda não é perfeito para este modelo, causando avisos de reprocessamento do prompt.

O post destaca que números médios podem esconder variações de desempenho, fornecendo uma distribuição real de velocidades em vez de apenas um número de destaque.