Un utilisateur tente d'exécuter le modèle Qwen3.5 122B à l'aide de llama-server sur un système équipé d'un GPU RTX 5090 et de 64 Go de RAM. La vitesse d'inférence signalée commence à environ 6 tokens par seconde (tps) et augmente progressivement pour atteindre environ 20 tps au cours de la génération.

  • Configuration matérielle : NVIDIA RTX 5090 avec 32 Go de VRAM et 64 Go de RAM système.
  • Variante du modèle : Qwen3.5-122B-A10B quantifié en Q5_K_S.
  • Métriques de performance : Débit initial d'environ 6 tps augmentant à environ 20 tps au fil de la génération.
  • Paramètres d'inférence : Utilisation de llama-server avec flash attention activé, 16 threads et une longueur de contexte de 100 000 tokens.

L'utilisateur cherche des conseils pour optimiser davantage cette configuration afin d'obtenir des vitesses de génération de tokens plus élevées.