Os autores apresentam o MindEdit-Bench, um benchmark projetado para avaliar modelos de visão e linguagem (VLMs) no raciocínio espacial contrafactual em nível de objeto usando fotos capturadas em cenários reais. O conjunto de dados consiste em 120 cenas internas privadas capturadas por tríades de smartphones e processadas por um pipeline automático de extração de grafos de cena 3D.
- O benchmark inclui seis tarefas de raciocínio espacial: quatro que sondam percepção e transformação de perspectiva, e duas novas tarefas (L4 e L5) que testam o raciocínio contrafactual em nível de objeto, onde as respostas corretas estão ausentes das imagens de entrada.
- Cada pergunta oferece 8-24 opções de resposta estruturadas para permitir o diagnóstico de erros espaciais e de fallback.
- A avaliação em 15 VLMs sobre 1.003 perguntas verificadas por humanos mostra uma precisão média por tarefa entre 8% e 31%, comparada a 81%-97% para a precisão da maioria dos humanos.
- A lacuna combinada entre humanos e o melhor VLM é de 53 pontos percentuais, com um déficit de pelo menos 39 pp em todas as tarefas.
O benchmark destaca falhas significativamente não uniformes nos VLMs, particularmente relacionadas à inferência do eixo de profundidade da câmera e ao comportamento de fallback em casos difíceis de edição de visibilidade.