Los autores presentan MindEdit-Bench, un benchmark diseñado para evaluar modelos de visión y lenguaje (VLM) en el razonamiento espacial contrafactual a nivel de objeto utilizando fotos capturadas en entornos reales. El conjunto de datos consta de 120 escenas interiores privadas capturadas mediante tríos de smartphones y procesadas a través de una tubería automática de extracción de grafos de escena 3D.

  • El benchmark incluye seis tareas de razonamiento espacial: cuatro que exploran la percepción y la transformación de perspectiva, y dos nuevas tareas (L4 y L5) que prueban el razonamiento contrafactual a nivel de objeto donde las respuestas correctas están ausentes en las imágenes de entrada.
  • Cada pregunta ofrece entre 8 y 24 opciones de respuesta estructuradas para permitir el diagnóstico de errores espaciales y de retroceso.
  • La evaluación en 15 VLM sobre 1,003 preguntas verificadas por humanos muestra una precisión media por tarea entre el 8% y el 31%, en comparación con un 81%-97% para la precisión por mayoría de votos humana.

La brecha agrupada entre los humanos y el mejor VLM es de 53 puntos porcentuales, con al menos un déficit de 39 pp en cada tarea.

El benchmark destaca fallos significativos no uniformes en los VLM, particularmente respecto a la inferencia del eje de profundidad de la cámara y el comportamiento de retroceso en casos difíciles de edición de visibilidad.