В данной работе представлен первый систематический анализ ловушек оценки при извлечении событий из мультимедиа, выявляющий три основных источника проблем: непоследовательная обработка данных, непоследовательные предположения о задаче и слишком либеральные условия оценки.

  • Исследование подчеркивает, что незначительные выборки в оценке могут вызывать большие вариации производительности.
  • Эти вариации часто приводят к переоценке способности модели привязывать события реального мира к различным модальностям.
  • Контролируемые эксперименты в рамках строгой системы оценки демонстрируют критическую необходимость в сопоставимых стандартах.

Полученные результаты стимулируют переход к более строгой оценке при извлечении событий из мультимедиа для обеспечения надежности и сопоставимости результатов.