Un utilisateur envisage d'acheter 4x Ascend GX10 pour l'inférence GLM5.2

Un utilisateur de Reddit envisage d'acheter quatre GPU Ascend GX10 pour se préparer à exécuter un futur modèle open-source "fable 5", citant des benchmarks de performance d'autres utilisateurs ayant testé GLM5.2 sur du matériel similaire.

Les benchmarks montrent que GLM5.2 atteint 400-500 tok/s pour le traitement des prompts et environ 15 tok/s pour la sortie avec une longueur de contexte de 128k sur quatre DGX Sparks ou Ascend GX10.
La configuration consomme environ 1000W d'électricité, ce que l'utilisateur juge gérable.
La quantification est suggérée comme un moyen d'améliorer l'utilité compte tenu des vitesses d'inférence actuelles.