Qwen3-VL-8B-Instruct 및 기타 VLM은 대화에서 공통 기반을 과대평가함

한 연구는 비전-언어 모델(VLM)이 협력적 대화 중에 공유될 수 있는 것과 공유된 이해로 확립된 것을 구별할 수 있는지 조사했습니다. 연구진은 HCRC MapTask 대화에서 주석이 달린 13,077개의 참조 표현을 사용하여 해석 일치 작업을 구성하고 통제된 조건 하에서 모델 행동을 평가했습니다.

실제 지도 이미지를 제공하면 전반적인 성능이 향상되지만 모델은 파트너의 관점과의 정렬을 과잉 예측하게 됩니다.
맵 콘텐츠의 텍스트 설명은 이 편향을 재현하는 반면, 비정보적 이미지는 정렬 예측을 완전히 억제합니다.
이 편향은 시각 채널 자체보다 작업 관련 맵 콘텐츠에 의해 주도됩니다.
정렬 예측의 이러한 향상은 정렬되지 않은 사례의 정확도 저하와 맞바꿈으로 이루어집니다.
교정 분석은 모델이 대화 기록을 통해 그라운딩을 추적하는 대신 지도상의 정적 참조 단서에 의존함을 시사합니다.
이러한 패턴은 Qwen3-VL-8B-Instruct에서 가장 명확하게 관찰되었으며, 두 아키텍처 패밀리에서 네 가지 추가 모델에서도 다양한 정도로 관찰되었습니다.

이 결과는 VLM이 잠재적으로 공유된 정보와 확립된 공통 기반을 혼동하고, 맵 콘텐츠를 상호 이해의 증거로 취급하며 상호작용을 통해 그라운딩이 어떻게 전개되는지 추적하지 않는다는 것을 나타냅니다.