Пользователь Reddit собирает данные о скорости инференса для 460GB nvfp4 чекпоинта GLM5.2 от Nvidia из сообщества.

  • Автор сообщает, что запускал модель со скоростью примерно 1 токен в секунду в симуляционном стенде, экстраполируя это до 75 токенов в секунду на реальной CUDA MGPU машине.
  • Участникам предлагается сначала указать количество токенов в секунду, а затем детали об инференс движке и спецификациях оборудования.
  • Пример формата подачи включает конфигурацию памяти, модель CPU и скорости дискового I/O.