저자들은 야생 사진(object-level counterfactual spatial reasoning)을 사용하여 비전-언어 모델(VLMs)을 평가하도록 설계된 벤치마크인 MindEdit-Bench를 소개합니다. 데이터셋은 스마트폰 트리플릿으로 캡처되고 자동 3D 장면 그래프 추출 파이프라인을 통해 처리된 120개의 사적인 실내 장면을 포함합니다.

  • 벤치마크에는 여섯 가지 공간 추론 작업이 포함되어 있습니다: 네 가지는 지각과 관점 변환을 조사하고, 두 개의 새로운 작업(L4 및 L5)은 입력 이미지에 정답이 없는 객체 수준 반사실적 추론을 테스트합니다.
  • 각 질문은 8-24개의 구조화된 답변 선택지를 제공하여 공간 오류 및 폴백 오류의 진단을 가능하게 합니다.
  • 1,003개의 인간 검증 질문에 대해 15개 VLM에 대한 평가는 작업별 평균 정확도가 8%에서 31% 사이이며, 인간의 다수결 정확도와 비교했을 때 81%-97%입니다.
  • 사람과 최상의 VLM 간의 풀된 격차는 53 퍼센트 포인트이며, 모든 작업에서 최소한 39 pp의 결핍이 있습니다.

이 벤치마크는 특히 카메라 깊이 축 추론 및 어려운 가시성 편집 사례에서의 폴백 동작에 관한 VLM의 현저한 비균일 실패를 강조합니다.