著者らは、Wildな写真を用いたオブジェクトレベルの反事実的空間推論についてビジョン・ランゲージモデル(VLMs)を評価するために設計されたベンチマークであるMindEdit-Benchを紹介する。データセットは、スマートフォントリプレットでキャプチャされ、自動3Dシーングラフ抽出パイプラインを通じて処理された120のプライベートな屋内シーンで構成されている。

  • ベンチマークには6つの空間推論タスクが含まれる:4つが知覚と視点変換を探り、2つの新しいタスク(L4およびL5)は、正解が入力画像に存在しないオブジェクトレベルの反事実的推論をテストする。
  • 各質問には8〜24の構造化された回答選択肢があり、空間エラーおよびフォールバックエラーの診断を可能にする。
  • 1,003人の人間が検証した質問に対する15のVLMでの評価は、タスクごとの平均精度が8%から31%であり、人間の多数決精度と比較して81%-97%となった。
  • 人間と最良のVLMの間のプールされたギャップは53パーセントポイントで、すべてのタスクで少なくとも39 ppの欠陥がある。

このベンチマークは、特にカメラ深度軸の推論および困難な可視性編集ケースにおけるフォールバック動作に関して、VLMにおける顕著な不均一な失敗を浮き彫りにしている。