GLM 5.2 ofrece velocidades de prefill mejoradas que superan los 100 t/s a longitudes de contexto más altas. La actualización reduce el uso de memoria, permitiendo que los modelos cuantizados en 4 bits manejen eficientemente más de 100k tokens de contexto. Esta mejora se detalla en un PR del creador de oMLX.