Авторы открыли исходный код инструмента для оценки моделей «зрение-язык» (VLM), который позволяет пользователям тестировать модели на своих собственных видеоданных с полной воспроизводимостью благодаря отслеживаемым запускам. Этот инструмент связывает каждый результат с его конкретным входными данными и конфигурацией, обеспечивая точную оценку точности, задержки и стоимости.

  • Фреймворк поддерживает создание небольших наборов данных для оценки на основе материалов, похожих на производственные, вместо того чтобы полагаться исключительно на лидерборды.
  • Отслеживаемые запуски гарантируют, что каждый результат связан с соответствующими входными данными и параметрами конфигурации.
  • Предоставляется открытый репозиторий, позволяющий пользователям воспроизводить оценки на своих собственных наборах данных.
  • Подход делает акцент на оптимизации выборки кадров и границ сцен, что может влиять на точность больше, чем выбор модели.

Этот инструмент помогает пользователям решать практические задачи оценки VLM, уделяя внимание ограничениям по задержке и стоимости наряду с метриками точности.