arxiv arXiv cs.CL · 1 小时前 · 来源： 5 天前 · research

Qwen3-VL-8B-Instruct 及其他视觉语言模型在对话中高估共同基础

译自 English → 中文

一项研究调查了视觉语言模型（VLMs）能否区分在协作对话中可能共享的内容与已确立为共享理解的内容。研究人员利用 HCRC MapTask 对话中的 13,077 个标注参考表达式构建了解释匹配任务，以在受控条件下评估模型行为。

提供真实的地图图像可提高整体性能，但会导致模型过度预测与伙伴视角的对齐。
对地图内容的文本描述重现了这种偏差，而信息量不足的图像则完全抑制了对齐预测。
该偏差由任务相关的地图内容驱动，而非视觉通道本身。
这种对齐预测的改善是以非对齐案例的准确性下降为代价的。
校准分析表明，模型依赖于地图上静态的指代表征线索，而不是通过对话历史来追踪接地过程。
这些模式在 Qwen3-VL-8B-Instruct 中观察得最为清晰，并在来自两个架构家族的另外四个模型中以不同程度观察到。

研究结果表明，VLMs 将潜在共享信息与已确立的共同基础混淆，将地图内容视为相互理解的证据，而不是追踪接地如何通过交互展开。

重要性 1/3 arXiv cs.CL Alibaba (Qwen) Evaluation & benchmarks Multimodal