Исследователи предлагают FoCo, метод для Zero-Shot Composed Image Retrieval (ZS-CIR), который моделирует композицию как два скоординированных этапа: фокусировка на визуальном контенте, релевантном модификации, и завершение целевой семантики. Подход использует текстово-заякоренную визуальную агрегацию и контекстно-условное семантическое завершение для решения ограничений существующих прокси-задач, где функция композиции остается не обученной.
- FoCo применяет текстово-заякоренную визуальную агрегацию для выборочного сбора визуального контента, направляемого локализованной текстовой семантикой.
- Он использует контекстно-условное семантическое завершение для преобразования агрегированных визуальных данных с оставшимся контекстом сцены в согласованное составное представление.
- Задачи обучаются совместно с кросс-инстанционной контрастной целью, чтобы поощрять семантическое разнообразие и предотвращать стратегии упрощенной композиции.
- Масштабные эксперименты на четырех бенчмарках ZS-CIR демонстрируют состояние наилучшего результата (state-of-the-art) производительности FoCo и улучшенную обобщающую способность.
Авторы считают это важным, поскольку это позволяет модели выражать разнообразные и тонкозернистые семантические модификации, преодолевая ограничения предопределенных механизмов композиции, используемых в предыдущих работах.