Un marco unificado de cero disparos, ZeProM, utiliza un Modelo de Video-Lenguaje preentrenado para realizar conjuntamente la detección de errores procedimentales y la segmentación temporal de acciones. Logra una mejora de hasta 4.4 puntos en EDA y 2.0 puntos en F1@.5 en tareas EgoPER, igualando o superando a los métodos supervisados sin entrenamiento específico para la tarea.
Detección de errores procedimentales con VLMs sin entrenamiento
Traducido del English → Español