Los autores presentan MindEdit-Bench, un benchmark diseñado para evaluar modelos de visión y lenguaje (VLM) en el razonamiento espacial contrafactual a nivel de objeto utilizando fotos capturadas en entornos reales. El conjunto de datos consta de 120 escenas interiores privadas capturadas mediante tríos de smartphones y procesadas a través de una tubería automática de extracción de grafos de escena 3D.
- El benchmark incluye seis tareas de razonamiento espacial: cuatro que exploran la percepción y la transformación de perspectiva, y dos nuevas tareas (L4 y L5) que prueban el razonamiento contrafactual a nivel de objeto donde las respuestas correctas están ausentes en las imágenes de entrada.
- Cada pregunta ofrece entre 8 y 24 opciones de respuesta estructuradas para permitir el diagnóstico de errores espaciales y de retroceso.
- La evaluación en 15 VLM sobre 1,003 preguntas verificadas por humanos muestra una precisión media por tarea entre el 8% y el 31%, en comparación con un 81%-97% para la precisión por mayoría de votos humana.
La brecha agrupada entre los humanos y el mejor VLM es de 53 puntos porcentuales, con al menos un déficit de 39 pp en cada tarea.
El benchmark destaca fallos significativos no uniformes en los VLM, particularmente respecto a la inferencia del eje de profundidad de la cámara y el comportamiento de retroceso en casos difíciles de edición de visibilidad.