GLM-5.2 UD-IQ2_M funciona a ~7.3 tokens por segundo en 4×RTX 3090s con 192GB de RAM DDR5 usando expert offload de llama.cpp. Reducir la cuantización de IQ2 a IQ1 no proporcionó ganancia de velocidad, mientras que aumentar los hilos de CPU de 6 a 12 mejoró el rendimiento en un 22%. La decodificación está limitada por el cómputo de CPU, no por el ancho de banda de memoria, y los expertos descargados deben distribuirse explícitamente entre las GPUs para evitar errores de falta de memoria.