Los usuarios que reportan velocidades de inferencia local de GLM 5.2 usando llama.cpp en 6x RTX 3090 con 128GB DDR5 y un i7-13700K logran 7.8 tokens/seg a un tamaño de contexto de 90K con cuantización Q8_0. El procesamiento del prompt ocurre a aproximadamente 40 tokens/seg.