GLM 5.2 en 4x Sparks: ¿Razonable?
Un usuario pregunta si es factible ejecutar GLM-5.2 en cuatro chips Ascend GX10 (DGX Sparks). Indaga sobre la cuantización de 4 bits utilizando 512GB de memoria unificada y estima las velocidades de tokens de entrada y salida para una longitud de contexto de 100k, señalando que no hay datos de rendimiento disponibles en línea.