NEST представляет датасет из 1005 полных фильмов, каждый из которых аннотирован 102 мультимодальными нарративными событиями, основанными на визуальном, диалоговом и аудио содержимом. Датасет отражает отношения между событиями, такие как временная последовательность, иерархия и долгосрочные зависимости, при оценке на задачах показывают низкую производительность в обнаружении и локализации событий, и более высокую производительность в извлечении отношений между событиями после финальной настройки.
NEST: Датасет для нарративных структур событий в длинных видео
Переведено с English → Русский