लेखकों ने MindEdit-Bench पेश किया है, एक बेंचमार्क जिसे इन-द-वाइल्ड फोटोज का उपयोग करके वस्तु-स्तर के काउंटरफैक्चुअल स्पेशियल रीजनिंग पर विज़न-लैंग्वेज मॉडल्स (VLMs) का मूल्यांकन करने के लिए डिज़ाइन किया गया है। डेटासेट में स्मार्टफोन ट्रिपलेट्स के माध्यम से कैप्चर किए गए 120 निजी आंतरिक दृश्य शामिल हैं और इन्हें एक स्वचालित 3D सीन-ग्राफ एक्सट्रैक्शन पाइपलाइन के माध्यम से प्रोसेस किया गया है।
- बेंचमार्क में छह स्पेशियल रीजनिंग टास्क शामिल हैं: चार जो परसेप्शन और पर्सपेक्टिव ट्रांसफॉर्मेशन को प्रोब करते हैं, और दो नए टास्क (L4 और L5) जो वस्तु-स्तर के काउंटरफैक्चुअल रीजनिंग का परीक्षण करते हैं जहाँ सही उत्तर इनपुट छवियों में अनुपस्थित होते हैं।
- प्रत्येक प्रश्न में स्पेशियल और फॉलबैक त्रुटियों के निदान को सक्षम बनाने के लिए 8-24 संरचित उत्तर विकल्प दिए गए हैं।
1,003 मानव-सत्यापित प्रश्नों पर 15 VLMs पर मूल्यांकन ने टास्क-वार माध्य सटीकता को 8% और 31% के बीच दिखाया, जबकि मानव बहुमत-वोट सटीकता के लिए यह 81%-97% था।
मानवों और सर्वश्रेष्ठ VLM के बीच पूल किया गया अंतर 53 प्रतिशत बिंदु है, और प्रत्येक टास्क पर कम से कम 39 pp की कमी है।
बेंचमार्क VLMs में महत्वपूर्ण गैर-समान विफलताओं को उजागर करता है, विशेष रूप से कैमरा-डिप्थ-अक्ष इनफरेंस और कठिन विज़िबिलिटी-एडिटिंग मामलों पर फॉलबैक व्यवहार के संबंध में।