Um usuário do Reddit está considerando comprar quatro GPUs Ascend GX10 para se preparar para executar um futuro modelo de código aberto "fable 5", citando benchmarks de outros usuários que testaram o GLM5.2 em hardware similar.
- Os benchmarks mostram que o GLM5.2 alcança 400-500 tokens por segundo para processamento do prompt e aproximadamente 15 tokens por segundo para saída com um comprimento de contexto de 128k em quatro DGX Sparks ou Ascend GX10s.
- A configuração consome cerca de 1000W de energia, o que o usuário observa como gerenciável.
- A quantização é sugerida como um método para melhorar a usabilidade dadas as velocidades de inferência atuais.