FoCo, 제로샷 구성 이미지 검색을 위한 프록시 태스크 도입

연구자들은 제로샷 구성 이미지 검색(ZS-CIR)을 위한 방법론인 FoCo를 제안했다. 이는 구성을 두 가지 조정된 단계로 모델링한다: 수정과 관련된 시각적 콘텐츠에 초점을 맞추고 대상 의미론을 완성하는 것이다. 이 접근 방식은 기존 프록시 태스크의 한계를 해결하기 위해 텍스트 기반 시각적 집계와 컨텍스트 조건부 의미론 완성을 활용한다. 여기서 구성 함수는 학습되지 않은 상태로 남아 있다.

FoCo는 텍스트 기반 시각적 집계를 사용하여 국소적 텍스트 의미론에 의해 유도된 시각적 콘텐츠를 선택적으로 수집한다.
남은 장면 컨텍스트와 함께 집계된 시각 정보를 일관된 구성 표현으로 변환하기 위해 컨텍스트 조건부 의미론 완성을 사용한다.
이러한 태스크는 의미론적 다양성을 장려하고 단축 구성 전략을 억제하기 위해 교차 인스턴스 대조 목적 함수와 공동으로 훈련된다.
네 가지 ZS-CIR 벤치마크에 대한 광범위한 실험은 FoCo의 최상위 성능과 개선된 일반화를 입증한다.

저자들은 이것이 중요하다고 생각한다. 왜냐하면 이 방법은 모델이 다양하고 세분화된 의미론적 수정을 표현할 수 있게 하여, 기존 연구에서 사용된 사전 정의된 구성 메커니즘의 제약을 극복하기 때문이다.