El artículo presenta STAITUS, un marco unificado para el seguimiento no supervisado de objetos en vídeo que aborda las limitaciones de los métodos basados en slots al desacoplar explícitamente la apariencia de la pose geométrica. Este enfoque resuelve los conflictos entre la consistencia temporal y el movimiento del objeto, evitando que los slots se fijen en fondos estáticos.
- STAITUS impone una separación espacial dentro del fotograma y aplica alineación temporal únicamente en el espacio de apariencia para mantener identidades persistentes bajo movimiento y oclusión.
- Se introduce un mecanismo de puerta adaptativo para ajustar dinámicamente el número de slots activos según la complejidad de la escena, mitigando la sobresegmentación.
- Experimentos exhaustivos en benchmarks sintéticos y del mundo real muestran que STAITUS supera sustancialmente a las líneas base más avanzadas en calidad de segmentación y estabilidad del seguimiento.
Al desacoplar la apariencia y la pose, el marco produce máscaras más nítidas y un seguimiento más estable para los objetos en primer plano, incluso durante eventos de entrada, salida u oclusión.