¿Se puede ejecutar GLM5.2 en servidores AMD EPYC con 4x 512GB de RAM?
El usuario pregunta si se puede ejecutar un modelo GLM 5.2 de 467GB en cuatro servidores, cada uno con 512GB de RAM y un ancho de banda de memoria de 409.6 GB/s, utilizando inferencia solo con CPU e Unsloth. Consideran dividir el modelo entre nodos para la velocidad de tokens o usar versiones de 8 bits en clústeres duales para manejar modelos más grandes y mejorar el rendimiento.