Um usuário do Reddit está considerando comprar quatro GPUs Ascend GX10 para se preparar para executar um futuro modelo de código aberto "fable 5", citando benchmarks de outros usuários que testaram o GLM5.2 em hardware similar.

  • Os benchmarks mostram que o GLM5.2 alcança 400-500 tokens por segundo para processamento do prompt e aproximadamente 15 tokens por segundo para saída com um comprimento de contexto de 128k em quatro DGX Sparks ou Ascend GX10s.
  • A configuração consome cerca de 1000W de energia, o que o usuário observa como gerenciável.
  • A quantização é sugerida como um método para melhorar a usabilidade dadas as velocidades de inferência atuais.