يقدم المؤلفون MindEdit-Bench، وهو معيار مصمم لتقييم نماذج الرؤية واللغة (VLMs) فيما يتعلق بالاستدلال المكاني المضاد للواقع على مستوى الكائن باستخدام صور ملتقطة في البيئة الطبيعية. يتكون مجموعة البيانات من 120 مشهدًا داخليًا خاصًا تم التقاطها عبر ثلاثيات الهواتف الذكية ومعالجتها عبر خط أنابيب استخراج رسم بياني للمشهد ثلاثي الأبعاد تلقائيًا.
- يتضمن المعيار ست مهام للاستدلال المكاني: أربع تستشعر الإدراك والتحويل المنظوري، ومهمتان جديدتان (L4 و L5) تختبران الاستدلال المضاد للواقع على مستوى الكائن حيث تكون الإجابات الصحيحة غائبة عن صور الإدخال.
- تقدم كل سؤال 8-24 خيار إجابة منظمين لتمكين تشخيص الأخطاء المكانية وأخطاء التراجع.
- أظهرت التقييمات عبر 15 نموذج VLM على 1,003 سؤال تم التحقق منها بشريًا دقة متوسطة لكل مهمة تتراوح بين 8% و 31%، مقارنة بـ 81%-97% لدقة التصويت الأغلبية البشرية.
- تبلغ الفجوة المجمعة بين البشر وأفضل نموذج VLM 53 نقطة مئوية، مع عجز لا يقل عن 39 نقطة مئوية في كل مهمة.
يبرز المعيار إخفاقات غير موحدة كبيرة في نماذج VLM، خاصة فيما يتعلق باستنتاج محور العمق-الكامنة وسلوك التراجع في حالات تعديل الرؤية الصعبة.