Performances locales de Qwen 27B sur du matériel grand public

Un utilisateur rapporte que Qwen 27B, quantisé en q6kxl et fonctionnant avec la prédiction multi-tokens sur un système équipé de GPUs 4090 et 3090, atteint des vitesses de décodage de 50 à 90 tokens/s et des vitesses de pré-remplissage de 1500 à 2200 tokens/s. Le modèle interagit de manière fiable avec diverses API et génère du code fonctionnel pour des applications monopages, des documents LaTeX, des analyseurs et des crawlers.

Modèle : Qwen 27B (quantisation q6kxl)
Matériel : système 4090+3090 avec 96 Go de VRAM
Vitesse de décodage : 50 à 90 tokens/s
Vitesse de pré-remplissage : 1500 à 2200 tokens/s
Capacité : ingère des bases de code de taille décente tout en maintenant le schéma existant pour les mises à jour.

Cette configuration est mise en avant comme étant le premier modèle local offrant une cohérence et une vitesse fiables sur ce matériel sans nécessiter de réglages approfondis des outils ou des harnesses.