Um usuário relata que o Qwen 27B, quantizado para q6kxl e executado com previsão de múltiplos tokens em um sistema com GPUs 4090 e 3090, alcança velocidades de decodificação de 50-90 tokens/s e velocidades de pré-preenchimento de 1500-2200 tokens/s. O modelo se integra confiavelmente a várias APIs e gera código funcional para aplicativos de página única, documentos LaTeX, parsers e crawlers.

  • Modelo: Qwen 27B (quantização q6kxl)
  • Hardware: sistema 4090+3090 com 96GB de VRAM
  • Velocidade de decodificação: 50-90 tokens/s
  • Velocidade de pré-preenchimento: 1500-2200 tokens/s
  • Capacidade: ingere bases de código de tamanho decente enquanto mantém o esquema existente para atualizações.

Esta configuração é destacada como o primeiro modelo local a oferecer coerência e velocidade confiáveis neste hardware sem exigir ajuste extensivo de ferramentas ou harnesses.