HarmVideoBench: Evaluación de la comprensión de videos dañinos en modelos multimodales grandes

Los investigadores presentan HarmVideoBench, un benchmark diagnóstico multicapa diseñado para evaluar la capacidad de los modelos de visión y lenguaje grandes (VLM) para comprender videos dañinos más allá de las señales superficiales. El benchmark aborda limitaciones en trabajos existentes al incorporar razonamientos explicativos y evaluar tres dimensiones jerárquicas del daño: Evidencia Observable, Significado Interno del Clip y Razonamiento Más Allá del Clip.

HarmVideoBench comprende 1.379 videos emparejados con 4.137 preguntas de opción múltiple para evaluar la comprensión contextual profunda.
El benchmark evalúa a los modelos en tres dimensiones jerárquicas: Evidencia Observable, Significado Interno del Clip y Razonamiento Más Allá del Clip.
El estudio evalúa 19 modelos de visión y lenguaje grandes líderes para evaluar su comprensión multidimensional del contenido dañino.
Se introduce un nuevo método llamado BCR, que predice los límites del razonamiento y recupera dinámicamente el contexto solo cuando es necesario.
Los resultados experimentales muestran que BCR eleva el rendimiento promedio macro de 61.7 por ciento a un estado del arte de 84.4 por ciento.

Los autores consideran esto importante porque los marcos actuales a menudo convierten la evaluación en una caja negra donde los modelos tienen éxito mediante atajos, mientras que HarmVideoBench asegura que los modelos expliquen su razonamiento y capturen los daños implícitos.