Para peneliti mengusulkan FoCo, sebuah metode untuk Pengambilan Gambar Tersusun Zero-Shot (ZS-CIR) yang memodelkan komposisi sebagai dua tahap terkoordinasi: berfokus pada konten visual yang relevan dengan modifikasi dan melengkapi semantik target. Pendekatan ini memanfaatkan agregasi visual berjangkar teks dan penyelesaian semantik terkondisi konteks untuk mengatasi keterbatasan dalam tugas proksi yang ada di mana fungsi komposisi tetap tidak dipelajari.

  • FoCo menggunakan agregasi visual berjangkar teks untuk secara selektif mengumpulkan konten visual yang dipandu oleh semantik teks terlokalisasi.
  • Ia menggunakan penyelesaian semantik terkondisi konteks untuk mengubah visual yang teragregasi dengan konteks adegan yang tersisa menjadi representasi tersusun yang koheren.
  • Tugas-tugas ini dilatih secara bersama-sama dengan tujuan kontras lintas-instances untuk mendorong keragaman semantik dan mencegah strategi komposisi jalan pintas.
  • Eksperimen ekstensif pada empat benchmark ZS-CIR menunjukkan kinerja state-of-the-art FoCo dan generalisasi yang meningkat.

Para penulis menganggap ini penting karena memungkinkan model untuk mengekspresikan modifikasi semantik yang beragam dan halus, mengatasi kendala mekanisme komposisi terdefinisi sebelumnya yang digunakan dalam karya sebelumnya.