Un utilisateur de Reddit collecte les données de vitesse d'inférence pour le checkpoint nvfp4 de 460 Go de GLM5.2 de Nvidia auprès de la communauté.
- L'auteur rapporte avoir exécuté le modèle à environ 1 token par seconde dans un harnais de simulation, extrapolant à 75 tokens par seconde sur une machine MGPU CUDA réelle.
- Les participants sont priés d'indiquer en premier leur nombre de tokens par seconde, suivi des détails sur le moteur d'inférence et les spécifications matérielles.
- Un format de soumission exemple inclut la configuration mémoire, le modèle CPU et les vitesses d'E/S du disque.