Rendimiento local de Qwen 27B en hardware de consumo

Un usuario informa que Qwen 27B, cuantizado a q6kxl y ejecutado con predicción de múltiples tokens en un sistema con GPUs 4090 y 3090, alcanza velocidades de decodificación de 50-90 tokens/s y velocidades de prellenado de 1500-2200 tokens/s. El modelo se integra confiablemente con varias APIs y genera código funcional para aplicaciones de una sola página, documentos LaTeX, analizadores y rastreadores.

Modelo: Qwen 27B (cuantización q6kxl)
Hardware: sistema 4090+3090 con 96 GB de VRAM
Velocidad de decodificación: 50-90 tokens/s
Velocidad de prellenado: 1500-2200 tokens/s
Capacidad: ingiere bases de código de tamaño decente mientras mantiene el esquema existente para actualizaciones.

Esta configuración se destaca como el primer modelo local que ofrece coherencia y velocidad confiables en este hardware sin requerir un ajuste extenso de herramientas o harnesses.