NEST presenta un conjunto de datos de 1005 películas completas, cada una anotada con 102 eventos narrativos multimodales fundamentados en contenido visual, diálogo y audio. El conjunto de datos captura relaciones de eventos como orden temporal, jerarquía y dependencias a largo alcance, con tareas de referencia que muestran bajo rendimiento en la detección y localización de eventos, y mayor rendimiento en la extracción de relaciones de eventos después del ajuste fino.