Авторы представляют MindEdit-Bench, бенчмарк, разработанный для оценки моделей «зрение-язык» (VLM) на предмет объектно-уровневого контрфактического пространственного рассуждения с использованием фотографий из реальной среды. Набор данных состоит из 120 частных интерьерных сцен, снятых тройками камер смартфонов и обработанных через автоматический конвейер извлечения графа сцены в 3D.

  • Бенчмарк включает шесть задач пространственного рассуждения: четыре для проверки восприятия и преобразования перспективы, а также две новые задачи (L4 и L5), тестирующие объектно-уровневое контрфактическое рассуждение, где правильные ответы отсутствуют во входных изображениях.
  • Каждый вопрос предлагает от 8 до 24 структурированных вариантов ответа для диагностики пространственных ошибок и ошибок выбора по умолчанию.
  • Оценка 15 VLM на 1 003 вопросах, проверенных людьми, показывает среднюю точность по задачам в диапазоне от 8% до 31%, по сравнению с 81%-97% для человеческой точности при голосовании большинства.
  • Общее отставание между людьми и лучшим VLM составляет 53 процентных пункта, причем дефицит составляет не менее 39 pp на каждой задаче.

Бенчмарк подчеркивает значительные неравномерные сбои в VLM, особенно в отношении вывода оси глубины камеры и поведения выбора по умолчанию в сложных случаях редактирования видимости.