Un usuario explora métodos rentables para ejecutar GLM 5.x localmente usando cuantización de 4 bits, como IQ4_XS, sin depender de memoria unificada. Las opciones incluyen configuraciones solo con CPU como Sapphire Rapids ES con DDR5, descarga a múltiples GPUs o modelos de tamaño similar. El usuario ejecuta un sistema con 5900X + 128GB DDR4 + 7900XT 20GB, manejando exitosamente Minimax 2.7 en Q4_K_S y Qwen 3.6 27B en IQ4_XS.
Manera más barata de ejecutar GLM 5.x localmente sin memoria unificada
Traducido del English → Español