Les chercheurs proposent FoCo, une méthode pour la Récupération d'Images Composées en Zéro-Shot (ZS-CIR) qui modélise la composition comme deux étapes coordonnées : se concentrer sur le contenu visuel pertinent pour la modification et compléter les sémantiques cibles. L'approche utilise une agrégation visuelle ancrée au texte et une complétion sémantique conditionnée par le contexte pour pallier les limites des tâches proxy existantes où la fonction de composition reste non apprise.

  • FoCo emploie une agrégation visuelle ancrée au texte pour rassembler sélectivement le contenu visuel guidé par des sémantiques textuelles localisées.
  • Il utilise une complétion sémantique conditionnée par le contexte pour transformer les visuels agrégés avec le contexte de scène restant en une représentation composée cohérente.
  • Les tâches sont entraînées conjointement avec un objectif contrastif cross-instance pour encourager la diversité sémantique et décourager les stratégies de composition raccourcies.
  • Des expériences approfondies sur quatre benchmarks ZS-CIR démontrent les performances de pointe de FoCo et sa généralisation améliorée.

Les auteurs considèrent cela important car cela permet au modèle d'exprimer des modifications sémantiques diverses et fines-granulaires, surmontant les contraintes des mécanismes de composition prédéfinis utilisés dans les travaux antérieurs.