Les auteurs présentent MindEdit-Bench, un benchmark conçu pour évaluer les modèles vision-langage (VLM) sur le raisonnement spatial contrefactuel au niveau de l'objet à l'aide de photos prises en conditions réelles. Le jeu de données est composé de 120 scènes intérieures privées capturées via des triplets de smartphones et traitées par un pipeline d'extraction automatique de graphes de scènes 3D.
- Le benchmark comprend six tâches de raisonnement spatial : quatre sondant la perception et la transformation de perspective, et deux nouvelles tâches (L4 et L5) testant le raisonnement contrefactuel au niveau de l'objet où les réponses correctes sont absentes des images d'entrée.
- Chaque question propose 8 à 24 choix de réponse structurés pour permettre le diagnostic des erreurs spatiales et de repli.
- L'évaluation sur 15 VLM portant sur 1 003 questions vérifiées par l'homme montre une précision moyenne par tâche comprise entre 8 % et 31 %, comparée à 81 %-97 % pour la précision du vote majoritaire humain.
- L'écart global entre les humains et le meilleur VLM est de 53 points de pourcentage, avec au moins un déficit de 39 pp sur chaque tâche.
Le benchmark met en évidence des échecs non uniformes significatifs dans les VLM, particulièrement concernant l'inférence de l'axe profondeur-appareil photo et le comportement de repli sur des cas difficiles d'édition de visibilité.