HarmVideoBench: Оценка способности больших мультимодальных моделей понимать вредоносные видео

Исследователи представляют HarmVideoBench, многоуровневый диагностический бенчмарк, предназначенный для оценки больших зрительно-языковых моделей в их способности понимать вредоносные видео за пределами поверхностных признаков. Бенчмарк устраняет ограничения существующих работ за счет включения объяснительных обоснований и оценки трех иерархических измерений вреда: Наблюдаемые доказательства, Внутренний смысл клипа и Рассуждения за пределами клипа.

HarmVideoBench включает 1379 видео, сопоставленных с 4137 вопросами с множественным выбором, для оценки глубокого понимания контекста.
Бенчмарк оценивает модели по трем иерархическим измерениям: Наблюдаемые доказательства, Внутренний смысл клипа и Рассуждения за пределами клипа.
В исследовании оцениваются 19 ведущих больших зрительно-языковых моделей для оценки их многомерного понимания вредоносного контента.
Представлен новый метод под названием BCR, который предсказывает границы рассуждений и динамически извлекает контекст только при необходимости.
Экспериментальные результаты показывают, что BCR повышает макросредний показатель производительности с 61,7 процента до рекордных 84,4 процента.

Авторы считают это важным, поскольку текущие фреймворки часто превращают оценку в черный ящик, где модели достигают успеха за счет упрощений, тогда как HarmVideoBench гарантирует, что модели объясняют свои рассуждения и выявляют скрытые угрозы.