HarmVideoBench: Оценка способности больших мультимодальных моделей понимать вредоносные видео
Исследователи представляют HarmVideoBench, многоуровневый диагностический бенчмарк, предназначенный для оценки больших зрительно-языковых моделей в их способности понимать вредоносные видео за пределами поверхностных признаков. Бенчмарк устраняет ограничения существующих работ за счет включения объяснительных обоснований и оценки трех иерархических измерений вреда: Наблюдаемые доказательства, Внутренний смысл клипа и Рассуждения за пределами клипа.