CapRiCorn-1K es un benchmark que evalúa la calidad de la descripción de vídeo y la consistencia referencial del sujeto a través de diferentes duraciones y dominios de vídeo. Admite configuraciones tanto audiovisuales como solo visuales, revelando que los modelos actuales tienen dificultades para mantener referencias consistentes del sujeto, especialmente en vídeos más largos, con una disminución de la calidad y la consistencia de las descripciones a medida que aumenta la duración del vídeo. Las métricas del benchmark muestran una fuerte alineación con tareas posteriores, validando su efectividad.
CapRiCorn-1K: Benchmark para la descripción de vídeo y consistencia del sujeto
Traducido del English → Español