Un usuario informa que Qwen 27B, cuantizado a q6kxl y ejecutado con predicción de múltiples tokens en un sistema con GPUs 4090 y 3090, alcanza velocidades de decodificación de 50-90 tokens/s y velocidades de prellenado de 1500-2200 tokens/s. El modelo se integra confiablemente con varias APIs y genera código funcional para aplicaciones de una sola página, documentos LaTeX, analizadores y rastreadores.

  • Modelo: Qwen 27B (cuantización q6kxl)
  • Hardware: sistema 4090+3090 con 96 GB de VRAM
  • Velocidad de decodificación: 50-90 tokens/s
  • Velocidad de prellenado: 1500-2200 tokens/s
  • Capacidad: ingiere bases de código de tamaño decente mientras mantiene el esquema existente para actualizaciones.

Esta configuración se destaca como el primer modelo local que ofrece coherencia y velocidad confiables en este hardware sin requerir un ajuste extenso de herramientas o harnesses.