Исследование изучает, могут ли модели «зрение-язык» (VLM) различать то, что может быть общим, и то, что уже установлено как общее понимание во время совместного диалога. Исследователи сформулировали задачу сопоставления интерпретаций, используя 13 077 аннотированных референсных выражений из диалогов HCRC MapTask для оценки поведения моделей в контролируемых условиях.

  • Предоставление подлинных карт улучшает общую производительность, но приводит к тому, что модели переоценивают совпадение с точкой зрения партнёра.
  • Текстовые описания содержимого карты воспроизводят эту предвзятость, тогда как неинформативные изображения полностью подавляют прогнозы совпадений.
  • Эта предвзятость обусловлена релевантным для задачи содержимым карты, а не самим визуальным каналом.
  • Улучшение прогнозирования совпадений происходит за счёт снижения точности в случаях отсутствия совпадений.
  • Анализ калибровки указывает на то, что модели опираются на статические референсные признаки на картах, а не отслеживают привязку через историю диалога.
  • Эти закономерности наиболее чётко наблюдались в Qwen3-VL-8B-Instruct и в различной степени — в четырёх дополнительных моделях из двух архитектурных семейств.

Полученные результаты указывают на то, что VLM смешивают потенциально общую информацию с установленной общей базой, рассматривая содержимое карты как доказательство взаимопонимания вместо отслеживания того, как привязка формируется через взаимодействие.