STAITUS: Разделение внешнего вида и позы для отслеживания объектов на видео

В статье представлен STAITUS — унифицированная рамка для обучения без учителя при отслеживании объектов на видео, которая устраняет ограничения существующих методов, основанных на слотах, за счёт явного разделения внешнего вида и геометрической позы. Такой подход разрешает конфликты между временной согласованностью и движением объекта, предотвращая фиксацию слотов на статичном фоне.

STAITUS обеспечивает пространственное разделение внутри кадра и применяет временное выравнивание только в пространстве признаков внешнего вида, чтобы поддерживать устойчивые идентификаторы при движении и перекрытиях.
Вводится адаптивный механизм гейтирования для динамической корректировки количества активных слотов в зависимости от сложности сцены, что смягчает проблему избыточного сегментирование.
Масштабные эксперименты на синтетических и реальных бенчмарках показывают, что STAITUS существенно превосходит современные базовые методы по качеству сегментации и стабильности отслеживания.

За счёт разделения внешнего вида и позы рамка обеспечивает более чёткие маски и более стабильное отслеживание объектов переднего плана даже в моменты появления, исчезновения или перекрытия.