MindEdit-Bench men-benchmark penalaran spasial kontrafaktual tingkat objek pada VLM

Para penulis memperkenalkan MindEdit-Bench, sebuah benchmark yang dirancang untuk mengevaluasi model visi-bahasa (VLM) pada penalaran spasial kontrafaktual tingkat objek menggunakan foto di dunia nyata. Dataset ini terdiri dari 120 adegan dalam ruangan pribadi yang ditangkap melalui triplet smartphone dan diproses melalui pipeline ekstraksi grafik adegan 3D otomatis.

Benchmark ini mencakup enam tugas penalaran spasial: empat yang probing persepsi dan transformasi perspektif, dan dua tugas baru (L4 dan L5) yang menguji penalaran kontrafaktual tingkat objek di mana jawaban yang benar tidak ada pada gambar input.
Setiap pertanyaan menawarkan 8-24 pilihan jawaban terstruktur untuk memungkinkan diagnosis kesalahan spasial dan fallback.
Evaluasi pada 15 VLM terhadap 1.003 pertanyaan yang diverifikasi manusia menunjukkan akurasi rata-rata per tugas antara 8% dan 31%, dibandingkan dengan 81%-97% untuk akurasi suara mayoritas manusia.
Kesenjangan gabungan antara manusia dan VLM terbaik adalah 53 poin persentase, dengan defisit setidaknya 39 pp pada setiap tugas.

Benchmark ini menyoroti kegagalan non-uniform yang signifikan pada VLM, khususnya mengenai inferensi sumbu kedalaman-kamera dan perilaku fallback pada kasus pengeditan visibilitas yang sulit.