Qwen3.6 27B sur RTX 5090 atteint une moyenne de 140 tok/s avec les paramètres llama.cpp optimisés

Un utilisateur partage des métriques de performance détaillées pour l'exécution du modèle Qwen3.6 27B sur un système équipé d'une RTX 5090, d'un AMD 9800X3D et de 64 Go de RAM en utilisant llama.cpp.

Le tuning impliquait un cache KV q8, un contexte de 192k, MTP draft=10, spec-draft-p-min=0.5, et batch/ubatch 512.
L'analyse de 6 454 échantillons sur une session de codage agnostique mixte a montré un débit moyen de 140,7 tok/s et une médiane de 134,9 tok/s.
Les performances maximales ont atteint la plage de 120-130 tok/s avec une longue traîne s'étendant jusqu'à 233 tok/s.
L'auteur note que la gestion du cache d'attention hybride/SWA dans llama.cpp n'est pas encore parfaite pour ce modèle, provoquant des avertissements de retraitement des prompts.

L'article souligne que les moyennes peuvent masquer les variations de performance, fournissant une distribution réelle des vitesses plutôt qu'un simple chiffre en gros titre.