Desempenho local do Qwen 27B em hardware de consumo

Um usuário relata que o Qwen 27B, quantizado para q6kxl e executado com previsão de múltiplos tokens em um sistema com GPUs 4090 e 3090, alcança velocidades de decodificação de 50-90 tokens/s e velocidades de pré-preenchimento de 1500-2200 tokens/s. O modelo se integra confiavelmente a várias APIs e gera código funcional para aplicativos de página única, documentos LaTeX, parsers e crawlers.

Modelo: Qwen 27B (quantização q6kxl)
Hardware: sistema 4090+3090 com 96GB de VRAM
Velocidade de decodificação: 50-90 tokens/s
Velocidade de pré-preenchimento: 1500-2200 tokens/s
Capacidade: ingere bases de código de tamanho decente enquanto mantém o esquema existente para atualizações.

Esta configuração é destacada como o primeiro modelo local a oferecer coerência e velocidade confiáveis neste hardware sem exigir ajuste extensivo de ferramentas ou harnesses.