Исследователи предлагают FoCo, метод для Zero-Shot Composed Image Retrieval (ZS-CIR), который моделирует композицию как два скоординированных этапа: фокусировка на визуальном контенте, релевантном модификации, и завершение целевой семантики. Подход использует текстово-заякоренную визуальную агрегацию и контекстно-условное семантическое завершение для решения ограничений существующих прокси-задач, где функция композиции остается не обученной.

  • FoCo применяет текстово-заякоренную визуальную агрегацию для выборочного сбора визуального контента, направляемого локализованной текстовой семантикой.
  • Он использует контекстно-условное семантическое завершение для преобразования агрегированных визуальных данных с оставшимся контекстом сцены в согласованное составное представление.
  • Задачи обучаются совместно с кросс-инстанционной контрастной целью, чтобы поощрять семантическое разнообразие и предотвращать стратегии упрощенной композиции.
  • Масштабные эксперименты на четырех бенчмарках ZS-CIR демонстрируют состояние наилучшего результата (state-of-the-art) производительности FoCo и улучшенную обобщающую способность.

Авторы считают это важным, поскольку это позволяет модели выражать разнообразные и тонкозернистые семантические модификации, преодолевая ограничения предопределенных механизмов композиции, используемых в предыдущих работах.