media r/LocalLLaMA · hace 1 h · fuente: hace 5 d · open_models

Prueba de velocidad de GLM-5.2 UD-IQ1_M en llama.cpp con 5090 y 3090 Ti

Traducido del English → Español

Una prueba de velocidad de GLM-5.2 cuantizado a UD-IQ1_M usando llama.cpp muestra 579 t/s de prefill con contexto de 8k y 324 t/s con contexto de 57k. La velocidad de decodificación se mantiene estable en 10.6 t/s para más de 580 tokens, cayendo a 9.37 t/s con contexto de 60k.

Importancia 1/3 r/LocalLLaMA Code generation Inference efficiency

Leer original