Publicación de un entorno para evaluar VLMs en tus propios videos con ejecuciones trazadas
Los autores han publicado un entorno para la evaluación de Modelos Visión-Lenguaje (VLMs) que permite a los usuarios probar modelos en sus propios datos de video con total reproducibilidad mediante ejecuciones trazadas. Esta herramienta vincula cada resultado a su entrada y configuración específicas, permitiendo una evaluación precisa de la precisión, latencia y costo.