Un usuario considera comprar 4x Ascend GX10 para inferencia de GLM5.2

Un usuario de Reddit está considerando comprar cuatro GPUs Ascend GX10 para prepararse para ejecutar un futuro modelo de código abierto "fable 5", citando benchmarks de otros usuarios que probaron GLM5.2 en hardware similar.

Los benchmarks muestran que GLM5.2 logra 400-500 tokens por segundo para el procesamiento del prompt y aproximadamente 15 tokens por segundo para la salida con una longitud de contexto de 128k en cuatro DGX Sparks o Ascend GX10s.
La configuración consume alrededor de 1000W de energía, lo que el usuario señala como manejable.
Se sugiere la cuantización como un método para mejorar la usabilidad dadas las velocidades de inferencia actuales.