Rendimiento de GLM5.2

Un usuario de Reddit está recopilando datos de velocidad de inferencia para la checkpoint nvfp4 de 460GB de GLM5.2 de Nvidia de la comunidad.

El autor informa que ejecuta el modelo a aproximadamente 1 token por segundo en un entorno de simulación, extrapolando a 75 tokens por segundo en una máquina MGPU CUDA real.
Se pide a los participantes que indiquen primero sus tokens por segundo, seguidos de detalles sobre el motor de inferencia y las especificaciones del hardware.
Un formato de envío de ejemplo incluye configuración de memoria, modelo de CPU y velocidades de E/S de disco.