Ejecutar GLM-5.2 solo en CPU con configuración local

Un usuario ejecuta GLM-5.2 localmente en un Dell PowerEdge R740 con dos CPUs Xeon 6248R y 768GB de RAM, utilizando ik_llama.cpp para mejorar la inferencia en CPU. Tras aislar un nodo NUMA para un rendimiento óptimo, logran 4–5.5 tokens por segundo en chat y aproximadamente 3 tokens por segundo en tareas de codificación, señalando que el modelo muestra 'sensaciones de frontera' durante la generación de código a pesar de su limitada usabilidad en este hardware.