GLM 5.2 обеспечивает улучшенные скорости предварительной загрузки, превышающие 100 t/s при больших длинах контекста. Обновление снижает использование памяти, позволяя 4-битным квантованным моделям эффективно обрабатывать более 100 тысяч токенов контекста. Это улучшение подробно описано в PR от создателя oMLX.