一项研究调查了视觉语言模型(VLMs)能否区分在协作对话中可能共享的内容与已确立为共享理解的内容。研究人员利用 HCRC MapTask 对话中的 13,077 个标注参考表达式构建了解释匹配任务,以在受控条件下评估模型行为。
- 提供真实的地图图像可提高整体性能,但会导致模型过度预测与伙伴视角的对齐。
- 对地图内容的文本描述重现了这种偏差,而信息量不足的图像则完全抑制了对齐预测。
- 该偏差由任务相关的地图内容驱动,而非视觉通道本身。
- 这种对齐预测的改善是以非对齐案例的准确性下降为代价的。
- 校准分析表明,模型依赖于地图上静态的指代表征线索,而不是通过对话历史来追踪接地过程。
- 这些模式在 Qwen3-VL-8B-Instruct 中观察得最为清晰,并在来自两个架构家族的另外四个模型中以不同程度观察到。
研究结果表明,VLMs 将潜在共享信息与已确立的共同基础混淆,将地图内容视为相互理解的证据,而不是追踪接地如何通过交互展开。