Una prueba de velocidad de GLM-5.2 cuantizado a UD-IQ1_M usando llama.cpp muestra 579 t/s de prefill con contexto de 8k y 324 t/s con contexto de 57k. La velocidad de decodificación se mantiene estable en 10.6 t/s para más de 580 tokens, cayendo a 9.37 t/s con contexto de 60k.
Prueba de velocidad de GLM-5.2 UD-IQ1_M en llama.cpp con 5090 y 3090 Ti
Traducido del English → Español