Авторы открыли исходный код инструмента для оценки моделей «зрение-язык» (VLM), который позволяет пользователям тестировать модели на своих собственных видеоданных с полной воспроизводимостью благодаря отслеживаемым запускам. Этот инструмент связывает каждый результат с его конкретным входными данными и конфигурацией, обеспечивая точную оценку точности, задержки и стоимости.
- Фреймворк поддерживает создание небольших наборов данных для оценки на основе материалов, похожих на производственные, вместо того чтобы полагаться исключительно на лидерборды.
- Отслеживаемые запуски гарантируют, что каждый результат связан с соответствующими входными данными и параметрами конфигурации.
- Предоставляется открытый репозиторий, позволяющий пользователям воспроизводить оценки на своих собственных наборах данных.
- Подход делает акцент на оптимизации выборки кадров и границ сцен, что может влиять на точность больше, чем выбор модели.
Этот инструмент помогает пользователям решать практические задачи оценки VLM, уделяя внимание ограничениям по задержке и стоимости наряду с метриками точности.