Пользователь спрашивает, можно ли запустить модель GLM 5.2 размером 467 ГБ на четырёх серверах, каждый из которых имеет 51-2 ГБ ОЗУ и пропускную способность памяти 409,6 ГБ/с, используя только CPU для инференса с Unsloth. Они рассматривают возможность разделения модели между узлами для ускорения обработки токенов или использование версий с 8-битной точностью в двух кластерах для обработки более крупных моделей и улучшения производительности.