Una comparación amateur en hardware de consumo demuestra que el GLM-5.2 altamente cuantizado (Q1_S) supera al Qwen 3.6 27B de mayor precisión (Q8) en una tarea de codificación compleja, a pesar de velocidades de inferencia significativamente más lentas.

  • La prueba consistió en construir un juego 3D autocontenido con Three.js en dos RTX 3090 usando el arnés pi.
  • Qwen 27B generó código en ~2 minutos pero requirió múltiples solicitudes de seguimiento para volverse jugable.
  • GLM 5.2 Q1_S tomó horas y 75k tokens pero produjo un producto correcto y pulido con sonido en un solo intento.
  • Los jueces LLM (Opus 4.8 y GPT 5.5) calificaron a GLM Q1_S más alto por calidad de código y seguimiento de instrucciones.
  • GLM de precisión completa completó la tarea en solo 11k tokens pero contenía errores de inversión de teclas de control ausentes en la versión cuantizada.

Los resultados sugieren que la cuantización de baja precisión puede seguir siendo altamente capaz para casos de uso específicos como tareas de razonamiento complejo, siempre que el proceso de pensamiento extendido del modelo se utilice efectivamente.