연구자들은 제로샷 구성 이미지 검색(ZS-CIR)을 위한 방법론인 FoCo를 제안했다. 이는 구성을 두 가지 조정된 단계로 모델링한다: 수정과 관련된 시각적 콘텐츠에 초점을 맞추고 대상 의미론을 완성하는 것이다. 이 접근 방식은 기존 프록시 태스크의 한계를 해결하기 위해 텍스트 기반 시각적 집계와 컨텍스트 조건부 의미론 완성을 활용한다. 여기서 구성 함수는 학습되지 않은 상태로 남아 있다.

  • FoCo는 텍스트 기반 시각적 집계를 사용하여 국소적 텍스트 의미론에 의해 유도된 시각적 콘텐츠를 선택적으로 수집한다.
  • 남은 장면 컨텍스트와 함께 집계된 시각 정보를 일관된 구성 표현으로 변환하기 위해 컨텍스트 조건부 의미론 완성을 사용한다.
  • 이러한 태스크는 의미론적 다양성을 장려하고 단축 구성 전략을 억제하기 위해 교차 인스턴스 대조 목적 함수와 공동으로 훈련된다.
  • 네 가지 ZS-CIR 벤치마크에 대한 광범위한 실험은 FoCo의 최상위 성능과 개선된 일반화를 입증한다.

저자들은 이것이 중요하다고 생각한다. 왜냐하면 이 방법은 모델이 다양하고 세분화된 의미론적 수정을 표현할 수 있게 하여, 기존 연구에서 사용된 사전 정의된 구성 메커니즘의 제약을 극복하기 때문이다.