Пользователь Reddit собирает данные о скорости инференса для 460GB nvfp4 чекпоинта GLM5.2 от Nvidia из сообщества.
- Автор сообщает, что запускал модель со скоростью примерно 1 токен в секунду в симуляционном стенде, экстраполируя это до 75 токенов в секунду на реальной CUDA MGPU машине.
- Участникам предлагается сначала указать количество токенов в секунду, а затем детали об инференс движке и спецификациях оборудования.
- Пример формата подачи включает конфигурацию памяти, модель CPU и скорости дискового I/O.