Um usuário está tentando executar o modelo Qwen3.5 122B usando llama-server em um sistema equipado com uma GPU RTX 5090 e 64GB de RAM. A velocidade de inferência relatada começa em aproximadamente 6 tokens por segundo (tps) e aumenta gradualmente para cerca de 20 tps durante a geração.
- Configuração de hardware: NVIDIA RTX 5090 com 32GB de VRAM e 64GB de RAM do sistema.
- Variação do modelo: Qwen3.5-122B-A10B quantizado como Q5_K_S.
- Métricas de desempenho: Vazão inicial de ~6 tps subindo para ~20 tps ao longo da geração.
- Configurações de inferência: Utilizou llama-server com flash attention habilitado, 16 threads e um comprimento de contexto de 100.000 tokens.
O usuário está buscando conselhos sobre como otimizar ainda mais esta configuração para alcançar velocidades de geração de tokens mais altas.