STAITUS: Desacoplar Apariencia y Pose para Seguimiento de Objetos en Vídeo

El artículo presenta STAITUS, un marco unificado para el seguimiento no supervisado de objetos en vídeo que aborda las limitaciones de las representaciones basadas en slots existentes al desacoplar explícitamente la apariencia de la pose geométrica. Al aplicar la alineación temporal únicamente en el espacio de apariencia y forzando la separación espacial dentro de los fotogramas, el método evita que los slots se fijen en fondos estáticos durante el movimiento.

STAITUS desacopla cada slot en apariencia y pose geométrica (posición/escala) para resolver conflictos entre objetivos de consistencia y movimiento del objeto.
El marco aplica separación espacial dentro del fotograma y alineación temporal exclusivamente en el espacio de apariencia para mejorar la nitidez de las máscaras y la persistencia de la identidad.
Se introduce un mecanismo de puerta adaptativo para ajustar dinámicamente el número de slots activos, mitigando la sobresegmentación basada en la complejidad de la escena.
Experimentos extensos en benchmarks sintéticos y del mundo real muestran que STAITUS supera sustancialmente a las líneas base más avanzadas en calidad de segmentación y estabilidad del seguimiento.

Este enfoque ayuda a los usuarios a lograr una descomposición centrada en el objeto más precisa en escenas dinámicas manteniendo identidades persistentes bajo condiciones como movimiento, oclusión y entrada o salida de objetos.