FoCo introduz tarefas proxy para recuperação de imagens compostas zero-shot

Pesquisadores propõem o FoCo, um método para Recuperação de Imagens Compostas Zero-Shot (ZS-CIR) que modela a composição como dois estágios coordenados: focar no conteúdo visual relevante para a modificação e completar a semântica alvo. A abordagem utiliza agregação visual ancorada em texto e conclusão semântica condicionada ao contexto para abordar limitações nas tarefas proxy existentes, onde a função de composição permanece não aprendida.

O FoCo emprega agregação visual ancorada em texto para reunir seletivamente conteúdo visual guiado por semântica textual localizada.
Ele usa conclusão semântica condicionada ao contexto para transformar as visuais agregadas com o contexto restante da cena em uma representação composta coerente.
As tarefas são treinadas conjuntamente com um objetivo contrastivo entre instâncias para encorajar a diversidade semântica e desencorajar estratégias de composição atalho.
Experimentos extensos em quatro benchmarks ZS-CIR demonstram o desempenho state-of-the-art do FoCo e uma generalização melhorada.

Os autores consideram isso importante porque permite que o modelo expresse modificações semânticas diversas e de granulação fina, superando as limitações dos mecanismos de composição predefinidos usados em trabalhos anteriores.