Usuário relata desempenho do Qwen3.5 122B na RTX 5090 com 32GB de VRAM

Um usuário está tentando executar o modelo Qwen3.5 122B usando llama-server em um sistema equipado com uma GPU RTX 5090 e 64GB de RAM. A velocidade de inferência relatada começa em aproximadamente 6 tokens por segundo (tps) e aumenta gradualmente para cerca de 20 tps durante a geração.

Configuração de hardware: NVIDIA RTX 5090 com 32GB de VRAM e 64GB de RAM do sistema.
Variação do modelo: Qwen3.5-122B-A10B quantizado como Q5_K_S.
Métricas de desempenho: Vazão inicial de ~6 tps subindo para ~20 tps ao longo da geração.
Configurações de inferência: Utilizou llama-server com flash attention habilitado, 16 threads e um comprimento de contexto de 100.000 tokens.

O usuário está buscando conselhos sobre como otimizar ainda mais esta configuração para alcançar velocidades de geração de tokens mais altas.