GLM 5.2 ofrece velocidades de prefill mejoradas que superan los 100 t/s a longitudes de contexto más altas. La actualización reduce el uso de memoria, permitiendo que los modelos cuantizados en 4 bits manejen eficientemente más de 100k tokens de contexto. Esta mejora se detalla en un PR del creador de oMLX.
PR de aceleración de GLM 5.2 en Mac Studio
Traducido del English → Español