Пользователь рассматривает покупку 4x Ascend GX10 для вывода GLM5.2

Пользователь Reddit рассматривает возможность покупки четырех GPU Ascend GX10, чтобы подготовиться к запуску будущей открытой модели "fable 5", ссылаясь на бенчмарки от других пользователей, которые тестировали GLM5.2 на аналогичном оборудовании.

Бенчмарки показывают, что GLM5.2 достигает 400-500 токенов в секунду для обработки промпта и примерно 15 токенов в секунду для вывода при длине контекста 128k на четырех DGX Sparks или Ascend GX10.
Установка потребляет около 1000W мощности, что пользователь отмечает как управляемое.
Квантование предлагается как метод улучшения удобства использования с учетом текущих скоростей вывода.