Usuário considera comprar 4x Ascend GX10s para inferência do GLM5.2

Um usuário do Reddit está considerando comprar quatro GPUs Ascend GX10 para se preparar para executar um futuro modelo de código aberto "fable 5", citando benchmarks de outros usuários que testaram o GLM5.2 em hardware similar.

Os benchmarks mostram que o GLM5.2 alcança 400-500 tokens por segundo para processamento do prompt e aproximadamente 15 tokens por segundo para saída com um comprimento de contexto de 128k em quatro DGX Sparks ou Ascend GX10s.
A configuração consome cerca de 1000W de energia, o que o usuário observa como gerenciável.
A quantização é sugerida como um método para melhorar a usabilidade dadas as velocidades de inferência atuais.