Los autores han publicado un entorno para la evaluación de Modelos Visión-Lenguaje (VLMs) que permite a los usuarios probar modelos en sus propios datos de video con total reproducibilidad mediante ejecuciones trazadas. Esta herramienta vincula cada resultado a su entrada y configuración específicas, permitiendo una evaluación precisa de la precisión, latencia y costo.

  • El marco de trabajo admite la creación de conjuntos de evaluación pequeños a partir de metraje similar al de producción en lugar de depender únicamente de los rankings.
  • Las ejecuciones trazadas aseguran que cada resultado esté vinculado a sus datos de entrada correspondientes y parámetros de configuración.
  • Se proporciona un repositorio abierto para permitir a los usuarios reproducir evaluaciones en sus propios conjuntos de datos.
  • El enfoque enfatiza la optimización del muestreo de fotogramas y los límites de escena, lo cual puede impactar más la precisión que la selección del modelo.

Esta herramienta ayuda a los usuarios a abordar los desafíos prácticos de la evaluación de VLMs al centrarse en las restricciones de latencia y costo junto con las métricas de precisión.