Una prueba de velocidad de GLM-5.2 cuantizado a UD-IQ1_M usando llama.cpp muestra 579 t/s de prefill con contexto de 8k y 324 t/s con contexto de 57k. La velocidad de decodificación se mantiene estable en 10.6 t/s para más de 580 tokens, cayendo a 9.37 t/s con contexto de 60k.