Пользователь предлагает использовать четыре видеокарты 5060 Ti с общим объемом ОЗУ 64 ГБ, работающих по интерфейсу PCIe Gen 3, для запуска GLM2 при приемлемом уровне квантования. Они предлагают добавить 512 ГБ ОЗУ DDR3 в сервере с 16 линиями PCIe и 4x4 разветвления для выгрузки хранения кэша КВ, с целью обеспечения эффективного инференса без использования единой памяти. Общая стоимость такой конфигурации оценивается в около 1700 долларов, с возможностью использования GLM2 при приемлемом уровне квантования.