Un utilisateur de Reddit envisage d'acheter quatre GPU Ascend GX10 pour se préparer à exécuter un futur modèle open-source "fable 5", citant des benchmarks de performance d'autres utilisateurs ayant testé GLM5.2 sur du matériel similaire.
- Les benchmarks montrent que GLM5.2 atteint 400-500 tok/s pour le traitement des prompts et environ 15 tok/s pour la sortie avec une longueur de contexte de 128k sur quatre DGX Sparks ou Ascend GX10.
- La configuration consomme environ 1000W d'électricité, ce que l'utilisateur juge gérable.
- La quantification est suggérée comme un moyen d'améliorer l'utilité compte tenu des vitesses d'inférence actuelles.