Este trabajo presenta el primer análisis sistemático de los errores de evaluación en la extracción de eventos multimedia, identificando tres fuentes principales de problemas: procesamiento inconsistente de datos, suposiciones de tarea inconsistentes y configuraciones de evaluación demasiado relajadas.

  • El estudio destaca que pequeñas decisiones de evaluación pueden provocar grandes variaciones en el rendimiento.
  • Estas variaciones a menudo llevan a una sobreestimación de la capacidad de un modelo para vincular eventos del mundo real a través de múltiples modalidades.
  • Experimentos controlados bajo un marco de evaluación estricto demuestran la necesidad crítica de estándares comparables.

Los hallazgos fomentan un cambio hacia una evaluación más rigurosa en la extracción de eventos multimedia para garantizar la fiabilidad y comparabilidad de los resultados.