Исследование изучает, могут ли модели «зрение-язык» (VLM) различать то, что может быть общим, и то, что уже установлено как общее понимание во время совместного диалога. Исследователи сформулировали задачу сопоставления интерпретаций, используя 13 077 аннотированных референсных выражений из диалогов HCRC MapTask для оценки поведения моделей в контролируемых условиях.
- Предоставление подлинных карт улучшает общую производительность, но приводит к тому, что модели переоценивают совпадение с точкой зрения партнёра.
- Текстовые описания содержимого карты воспроизводят эту предвзятость, тогда как неинформативные изображения полностью подавляют прогнозы совпадений.
- Эта предвзятость обусловлена релевантным для задачи содержимым карты, а не самим визуальным каналом.
- Улучшение прогнозирования совпадений происходит за счёт снижения точности в случаях отсутствия совпадений.
- Анализ калибровки указывает на то, что модели опираются на статические референсные признаки на картах, а не отслеживают привязку через историю диалога.
- Эти закономерности наиболее чётко наблюдались в Qwen3-VL-8B-Instruct и в различной степени — в четырёх дополнительных моделях из двух архитектурных семейств.
Полученные результаты указывают на то, что VLM смешивают потенциально общую информацию с установленной общей базой, рассматривая содержимое карты как доказательство взаимопонимания вместо отслеживания того, как привязка формируется через взаимодействие.