Пользователь Reddit рассматривает возможность покупки четырех GPU Ascend GX10, чтобы подготовиться к запуску будущей открытой модели "fable 5", ссылаясь на бенчмарки от других пользователей, которые тестировали GLM5.2 на аналогичном оборудовании.
- Бенчмарки показывают, что GLM5.2 достигает 400-500 токенов в секунду для обработки промпта и примерно 15 токенов в секунду для вывода при длине контекста 128k на четырех DGX Sparks или Ascend GX10.
- Установка потребляет около 1000W мощности, что пользователь отмечает как управляемое.
- Квантование предлагается как метод улучшения удобства использования с учетом текущих скоростей вывода.