В данной работе представлен первый систематический анализ ловушек оценки при извлечении событий из мультимедиа, выявляющий три основных источника проблем: непоследовательная обработка данных, непоследовательные предположения о задаче и слишком либеральные условия оценки.
- Исследование подчеркивает, что незначительные выборки в оценке могут вызывать большие вариации производительности.
- Эти вариации часто приводят к переоценке способности модели привязывать события реального мира к различным модальностям.
- Контролируемые эксперименты в рамках строгой системы оценки демонстрируют критическую необходимость в сопоставимых стандартах.
Полученные результаты стимулируют переход к более строгой оценке при извлечении событий из мультимедиа для обеспечения надежности и сопоставимости результатов.