作者推出了 MindEdit-Bench,这是一个旨在利用真实场景照片评估视觉语言模型(VLMs)在对象级反事实空间推理能力的基准测试。该数据集包含 120 个通过智能手机三摄捕获的私有室内场景,并通过自动 3D 场景图提取流水线进行处理。

  • 该基准测试包括六个空间推理任务:四个用于探测感知和视角变换,以及两个新任务(L4 和 L5),用于测试对象级反事实推理,其中正确答案不在输入图像中。
  • 每个问题提供 8-24 个结构化答案选项,以诊断空间和回退错误。
  • 在 1,003 个人工验证的问题上对 15 个 VLMs 进行评估,结果显示任务平均准确率在 8% 到 31% 之间,而人类多数投票准确率为 81%-97%。
  • 人类与最佳 VLM 之间的综合差距为 53 个百分点,且在每个任务上至少存在 39 个百分点的劣势。

该基准测试突显了 VLMs 中显著的非均匀失败现象,特别是在相机深度轴推断以及困难可见性编辑案例上的回退行为方面。