تقدم FoCo مهامًا وسيطة للاسترجاع المركب للصور بدون تدريب (Zero-Shot)

يقترح الباحثون طريقة FoCo للاسترجاع المركب للصور بدون تدريب (ZS-CIR)، والتي تُجسّد التركيب كمرحلتين منسقتين: التركيز على المحتوى البصري ذي الصلة بالتعديل وإكمال الدلالات المستهدفة. تستخدم هذه المنهجية التجميع البصري المثبت بالنص وإكمال الدلالات المشروط بالسياق لمعالجة قيود المهام الوسيطة الحالية حيث تبقى دالة التركيب غير مُعلَّمة.

يستخدم FoCo تجميعًا بصريًا مثبتًا بالنص لجمع المحتوى البصري انتقائيًا بمساعدة دلالات نصية موضعية.
يستخدم إكمالًا دلاليًا مشروطًا بالسياق لتحويل الصور المجمعة مع سياق المشهد المتبقي إلى تمثيل مركب متماسك.
تُدرَّب المهام بشكل مشترك باستخدام هدف تقابلي عبر الأمثلة لتشجيع التنوع الدلالي ومنع استراتيجيات التركيب المختصرة.
أظهرت تجارب مكثفة على أربعة معايير ZS-CIR أداء FoCo الرائد وتحسين التعميم.

يعتقد المؤلفون أن هذا مهم لأنه يسمح للنموذج بالتعبير عن تعديلات دلالية متنوعة ودقيقة، متجاوزًا قيود آليات التركيب المحددة مسبقًا المستخدمة في الأعمال السابقة.