Un usuario está intentando ejecutar el modelo Qwen3.5 122B utilizando llama-server en un sistema equipado con una GPU RTX 5090 y 64GB de RAM. La velocidad de inferencia reportada comienza aproximadamente en 6 tokens por segundo (tps) y aumenta gradualmente hasta alrededor de 20 tps durante la generación.

  • Configuración de hardware: NVIDIA RTX 5090 con 32GB VRAM y 64GB de RAM del sistema.
  • Variante del modelo: Qwen3.5-122B-A10B cuantizado como Q5_K_S.
  • Métricas de rendimiento: Rendimiento inicial de ~6 tps que sube a ~20 tps durante el curso de la generación.
  • Configuraciones de inferencia: Utilizó llama-server con flash attention habilitado, 16 hilos y una longitud de contexto de 100.000 tokens.

El usuario está buscando consejos sobre cómo optimizar aún más esta configuración para lograr velocidades de generación de tokens más altas.