Um usuário compartilha métricas detalhadas de desempenho ao rodar o modelo Qwen3.6 27B em um sistema com RTX 5090, AMD 9800X3D e 64GB de RAM usando llama.cpp.
- O ajuste envolveu q8 KV cache, contexto de 192k, MTP draft=10, spec-draft-p-min=0.5 e batch/ubatch 512.
- A análise de 6.454 amostras durante uma sessão mista de programação agéntica mostrou uma taxa média de 140.7 tok/s e mediana de 134.9 tok/s.
- O pico de desempenho atingiu a faixa de 120-130 tok/s com uma cauda longa se estendendo até 233 tok/s.
- O autor nota que o tratamento de cache de atenção híbrida/SWA no llama.cpp ainda não é perfeito para este modelo, causando avisos de reprocessamento do prompt.
O post destaca que números médios podem esconder variações de desempenho, fornecendo uma distribuição real de velocidades em vez de apenas um número de destaque.