Qwen3-VL-8B-Instruct и другие VLM переоценивают общую базу в диалоге

Исследование изучает, могут ли модели «зрение-язык» (VLM) различать то, что может быть общим, и то, что уже установлено как общее понимание во время совместного диалога. Исследователи сформулировали задачу сопоставления интерпретаций, используя 13 077 аннотированных референсных выражений из диалогов HCRC MapTask для оценки поведения моделей в контролируемых условиях.

Предоставление подлинных карт улучшает общую производительность, но приводит к тому, что модели переоценивают совпадение с точкой зрения партнёра.
Текстовые описания содержимого карты воспроизводят эту предвзятость, тогда как неинформативные изображения полностью подавляют прогнозы совпадений.
Эта предвзятость обусловлена релевантным для задачи содержимым карты, а не самим визуальным каналом.
Улучшение прогнозирования совпадений происходит за счёт снижения точности в случаях отсутствия совпадений.
Анализ калибровки указывает на то, что модели опираются на статические референсные признаки на картах, а не отслеживают привязку через историю диалога.
Эти закономерности наиболее чётко наблюдались в Qwen3-VL-8B-Instruct и в различной степени — в четырёх дополнительных моделях из двух архитектурных семейств.

Полученные результаты указывают на то, что VLM смешивают потенциально общую информацию с установленной общей базой, рассматривая содержимое карты как доказательство взаимопонимания вместо отслеживания того, как привязка формируется через взаимодействие.