FoCo introduce tareas proxy para recuperación de imágenes compuestas sin entrenamiento previo

Los investigadores proponen FoCo, un método para Recuperación de Imágenes Compuestas Sin Entrenamiento Previo (ZS-CIR) que modela la composición como dos etapas coordinadas: enfocarse en el contenido visual relevante para la modificación y completar la semántica objetivo. El enfoque utiliza agregación visual anclada al texto y completado semántico condicionado por contexto para abordar las limitaciones de las tareas proxy existentes donde la función de composición permanece sin aprender.

FoCo emplea agregación visual anclada al texto para recopilar selectivamente contenido visual guiado por semántica textual localizada.
Utiliza completado semántico condicionado por contexto para transformar las visuales agregadas con el contexto restante de la escena en una representación compuesta coherente.
Las tareas se entrenan conjuntamente con un objetivo contrastivo entre instancias para fomentar la diversidad semántica y desalentar estrategias de composición atajos.
Experimentos extensos en cuatro benchmarks ZS-CIR demuestran el rendimiento state-of-the-art de FoCo y una generalización mejorada.

Los autores consideran esto importante porque permite al modelo expresar modificaciones semánticas diversas y de grano fino, superando las limitaciones de los mecanismos de composición predefinidos utilizados en trabajos previos.