GLM 5.2 corre a 12t/s en hardware dual RTX 5090
Un usuario probó la versión cuantizada de unsloth de GLM 5.2 en una estación de trabajo de consumo de gama alta que cuenta con dos GPUs RTX 5090 y un procesador Zen5 Threadripper Pro. El sistema utilizaba 512GB de RAM DDR5 ECC y estaba configurado con banderas de compilación específicas de llama.cpp para habilitar optimizaciones CUDA y manejo de memoria unificada. Los pesos del modelo se cargaron desde la cuantización UD-Q5_K_S, que totalizó aproximadamente 492GB a través de múltiples archivos GGUF. Las pruebas de rendimiento implicaron ejecutar llama-server con un tamaño de contexto de 32768 tokens y parámetros de subprocesamiento específicos para aislamiento NUMA. Los resultados del benchmark mostraron consistentemente una velocidad de inferencia de 12 tokens por segundo durante interacciones de chat sin flujos de trabajo agénticos. Experimentos adicionales revelaron que omitir ciertas banderas de optimización, como flash attention o configuraciones NUMA, produjo cambios insignificantes en el rendimiento.