Un usuario de Reddit está recopilando datos de velocidad de inferencia para la checkpoint nvfp4 de 460GB de GLM5.2 de Nvidia de la comunidad.
- El autor informa que ejecuta el modelo a aproximadamente 1 token por segundo en un entorno de simulación, extrapolando a 75 tokens por segundo en una máquina MGPU CUDA real.
- Se pide a los participantes que indiquen primero sus tokens por segundo, seguidos de detalles sobre el motor de inferencia y las especificaciones del hardware.
- Un formato de envío de ejemplo incluye configuración de memoria, modelo de CPU y velocidades de E/S de disco.