MindEdit-Bench оценивает объектно-уровневое контрфактическое пространственное рассуждение в VLM

Авторы представляют MindEdit-Bench, бенчмарк, разработанный для оценки моделей «зрение-язык» (VLM) на предмет объектно-уровневого контрфактического пространственного рассуждения с использованием фотографий из реальной среды. Набор данных состоит из 120 частных интерьерных сцен, снятых тройками камер смартфонов и обработанных через автоматический конвейер извлечения графа сцены в 3D.

Бенчмарк включает шесть задач пространственного рассуждения: четыре для проверки восприятия и преобразования перспективы, а также две новые задачи (L4 и L5), тестирующие объектно-уровневое контрфактическое рассуждение, где правильные ответы отсутствуют во входных изображениях.
Каждый вопрос предлагает от 8 до 24 структурированных вариантов ответа для диагностики пространственных ошибок и ошибок выбора по умолчанию.
Оценка 15 VLM на 1 003 вопросах, проверенных людьми, показывает среднюю точность по задачам в диапазоне от 8% до 31%, по сравнению с 81%-97% для человеческой точности при голосовании большинства.
Общее отставание между людьми и лучшим VLM составляет 53 процентных пункта, причем дефицит составляет не менее 39 pp на каждой задаче.

Бенчмарк подчеркивает значительные неравномерные сбои в VLM, особенно в отношении вывода оси глубины камеры и поведения выбора по умолчанию в сложных случаях редактирования видимости.