В статье представлен STAITUS — унифицированная система для обучения без учителя при отслеживании объектов на видео, которая устраняет ограничения существующих слотовых представлений за счёт явного разделения внешнего вида и геометрической позы. Применяя временное выравнивание только в пространстве признаков (appearance space) и обеспечивая пространственное разделение внутри кадров, метод предотвращает «застревание» слотов на статичном фоне при движении.

  • STAITUS разделяет каждый слот на внешний вид и геометрическую позу (позицию/масштаб), чтобы разрешить конфликты между целями согласованности и движением объектов.
  • Система обеспечивает пространственное разделение внутри кадров и применяет временное выравнивание исключительно в пространстве признаков, что повышает чёткость масок и устойчивость идентификации.
  • Введена адаптивная система гейтирования для динамической регулировки количества активных слотов, что смягчает проблему избыточного сегментирование в зависимости от сложности сцены.
  • Масштабные эксперименты на синтетических и реальных наборах данных показывают, что STAITUS существенно превосходит современные базовые модели по качеству сегментации и стабильности отслеживания.

Этот подход помогает пользователям достигать более точного разложения объектов в динамичных сценах, сохраняя устойчивую идентификацию при таких условиях, как движение, перекрытие объектов, а также появление или исчезновение объектов.