Performances de GLM5.2

Un utilisateur de Reddit collecte les données de vitesse d'inférence pour le checkpoint nvfp4 de 460 Go de GLM5.2 de Nvidia auprès de la communauté.

L'auteur rapporte avoir exécuté le modèle à environ 1 token par seconde dans un harnais de simulation, extrapolant à 75 tokens par seconde sur une machine MGPU CUDA réelle.
Les participants sont priés d'indiquer en premier leur nombre de tokens par seconde, suivi des détails sur le moteur d'inférence et les spécifications matérielles.
Un format de soumission exemple inclut la configuration mémoire, le modèle CPU et les vitesses d'E/S du disque.