Um usuário relata que o Qwen 27B, quantizado para q6kxl e executado com previsão de múltiplos tokens em um sistema com GPUs 4090 e 3090, alcança velocidades de decodificação de 50-90 tokens/s e velocidades de pré-preenchimento de 1500-2200 tokens/s. O modelo se integra confiavelmente a várias APIs e gera código funcional para aplicativos de página única, documentos LaTeX, parsers e crawlers.
- Modelo: Qwen 27B (quantização q6kxl)
- Hardware: sistema 4090+3090 com 96GB de VRAM
- Velocidade de decodificação: 50-90 tokens/s
- Velocidade de pré-preenchimento: 1500-2200 tokens/s
- Capacidade: ingere bases de código de tamanho decente enquanto mantém o esquema existente para atualizações.
Esta configuração é destacada como o primeiro modelo local a oferecer coerência e velocidade confiáveis neste hardware sem exigir ajuste extensivo de ferramentas ou harnesses.