HarmVideoBench: Evaluación de la comprensión de videos dañinos en modelos multimodales grandes
Los investigadores presentan HarmVideoBench, un benchmark diagnóstico multicapa diseñado para evaluar la capacidad de los modelos de visión y lenguaje grandes (VLM) para comprender videos dañinos más allá de las señales superficiales. El benchmark aborda limitaciones en trabajos existentes al incorporar razonamientos explicativos y evaluar tres dimensiones jerárquicas del daño: Evidencia Observable, Significado Interno del Clip y Razonamiento Más Allá del Clip.