Un usuario logró más de 50 tokens por segundo para GLM5.2 en su sistema GH200 combinando el cabezal MTP del repositorio FP8 de zai con el modelo cuantizado AWQ-INT4 de CyanKiwi. Este enfoque híbrido, implementado mediante un script de fusión y vLLM parcheado, alcanzó un mejor caso de ~55 tok/s con concurrencia 4x y ~45 tok/s para inferencia única, con transmisión desde RAM a VRAM.
Los hacks de modelos aumentan la velocidad de GLM5.2 de 2.5 a más de 50 tok/s
Traducido del English → Español