GLM-5.2 (744B, 2-bit) alcanza 7.3 tok/s en 4×3090 con 192GB de RAM
GLM-5.2 UD-IQ2_M funciona a ~7.3 tokens por segundo en 4×RTX 3090s con 192GB de RAM DDR5 usando expert offload de llama.cpp. Reducir la cuantización de IQ2 a IQ1 no proporcionó ganancia de velocidad, mientras que aumentar los hilos de CPU de 6 a 12 mejoró el rendimiento en un 22%. La decodificación está limitada por el cómputo de CPU, no por el ancho de banda de memoria, y los expertos descargados deben distribuirse explícitamente entre las GPUs para evitar errores de falta de memoria.