Los investigadores proponen FoCo, un método para Recuperación de Imágenes Compuestas Sin Entrenamiento Previo (ZS-CIR) que modela la composición como dos etapas coordinadas: enfocarse en el contenido visual relevante para la modificación y completar la semántica objetivo. El enfoque utiliza agregación visual anclada al texto y completado semántico condicionado por contexto para abordar las limitaciones de las tareas proxy existentes donde la función de composición permanece sin aprender.
- FoCo emplea agregación visual anclada al texto para recopilar selectivamente contenido visual guiado por semántica textual localizada.
- Utiliza completado semántico condicionado por contexto para transformar las visuales agregadas con el contexto restante de la escena en una representación compuesta coherente.
- Las tareas se entrenan conjuntamente con un objetivo contrastivo entre instancias para fomentar la diversidad semántica y desalentar estrategias de composición atajos.
- Experimentos extensos en cuatro benchmarks ZS-CIR demuestran el rendimiento state-of-the-art de FoCo y una generalización mejorada.
Los autores consideran esto importante porque permite al modelo expresar modificaciones semánticas diversas y de grano fino, superando las limitaciones de los mecanismos de composición predefinidos utilizados en trabajos previos.