Qwen3-VL-8B-Instruct e outros VLMs superestimam o terreno comum em diálogos

Um estudo investiga se modelos de visão e linguagem (VLMs) podem distinguir entre o que pode ser compartilhado e o que foi estabelecido como compreensão compartilhada durante um diálogo colaborativo. Os pesquisadores formularam uma tarefa de correspondência de interpretação usando 13.077 expressões de referência anotadas dos diálogos HCRC MapTask para avaliar o comportamento do modelo sob condições controladas.

Fornecer imagens autênticas de mapas melhora o desempenho geral, mas faz com que os modelos superestimem o alinhamento com a perspectiva do parceiro.
Descrições textuais do conteúdo do mapa reproduzem esse viés, enquanto imagens não informativas suprimem completamente as previsões de alinhamento.
O viés é impulsionado pelo conteúdo do mapa relevante para a tarefa, e não pelo canal visual em si.
Essa melhoria na previsão de alinhamento ocorre à custa da precisão degradada nos casos não alinhados.
A análise de calibração sugere que os modelos dependem de pistas referenciais estáticas nos mapas, em vez de rastrear o grounding por meio do histórico do diálogo.
Esses padrões foram observados mais claramente no Qwen3-VL-8B-Instruct e, em graus variados, em quatro modelos adicionais de duas famílias de arquiteturas.

Os resultados indicam que os VLMs confundem informações potencialmente compartilhadas com o terreno comum estabelecido, tratando o conteúdo do mapa como evidência de compreensão mútua, em vez de rastrear como o grounding se desenrola por meio da interação.