한 연구는 비전-언어 모델(VLM)이 협력적 대화 중에 공유될 수 있는 것과 공유된 이해로 확립된 것을 구별할 수 있는지 조사했습니다. 연구진은 HCRC MapTask 대화에서 주석이 달린 13,077개의 참조 표현을 사용하여 해석 일치 작업을 구성하고 통제된 조건 하에서 모델 행동을 평가했습니다.

  • 실제 지도 이미지를 제공하면 전반적인 성능이 향상되지만 모델은 파트너의 관점과의 정렬을 과잉 예측하게 됩니다.
  • 맵 콘텐츠의 텍스트 설명은 이 편향을 재현하는 반면, 비정보적 이미지는 정렬 예측을 완전히 억제합니다.
  • 이 편향은 시각 채널 자체보다 작업 관련 맵 콘텐츠에 의해 주도됩니다.
  • 정렬 예측의 이러한 향상은 정렬되지 않은 사례의 정확도 저하와 맞바꿈으로 이루어집니다.
  • 교정 분석은 모델이 대화 기록을 통해 그라운딩을 추적하는 대신 지도상의 정적 참조 단서에 의존함을 시사합니다.
  • 이러한 패턴은 Qwen3-VL-8B-Instruct에서 가장 명확하게 관찰되었으며, 두 아키텍처 패밀리에서 네 가지 추가 모델에서도 다양한 정도로 관찰되었습니다.

이 결과는 VLM이 잠재적으로 공유된 정보와 확립된 공통 기반을 혼동하고, 맵 콘텐츠를 상호 이해의 증거로 취급하며 상호작용을 통해 그라운딩이 어떻게 전개되는지 추적하지 않는다는 것을 나타냅니다.