Un utilisateur de Reddit envisage d'acheter quatre GPU Ascend GX10 pour se préparer à exécuter un futur modèle open-source "fable 5", citant des benchmarks de performance d'autres utilisateurs ayant testé GLM5.2 sur du matériel similaire.

  • Les benchmarks montrent que GLM5.2 atteint 400-500 tok/s pour le traitement des prompts et environ 15 tok/s pour la sortie avec une longueur de contexte de 128k sur quatre DGX Sparks ou Ascend GX10.
  • La configuration consomme environ 1000W d'électricité, ce que l'utilisateur juge gérable.
  • La quantification est suggérée comme un moyen d'améliorer l'utilité compte tenu des vitesses d'inférence actuelles.