Qwen3-VL-8B-Instruct et d'autres VLM surestiment le terrain commun dans le dialogue

Une étude examine si les modèles vision-langage (VLM) peuvent distinguer ce qui pourrait être partagé de ce qui a été établi comme une compréhension commune lors d'un dialogue collaboratif. Les chercheurs ont formulé une tâche d'appariement d'interprétation en utilisant 13 077 expressions de référence annotées issues des dialogues HCRC MapTask pour évaluer le comportement des modèles dans des conditions contrôlées.

La fourniture d'images de cartes authentiques améliore les performances globales mais conduit les modèles à surestimer l'alignement avec la perspective du partenaire.
Les descriptions textuelles du contenu de la carte reproduisent ce biais, tandis que les images non informatives suppriment entièrement les prédictions d'alignement.
Ce biais est piloté par le contenu de la carte pertinent pour la tâche plutôt que par le canal visuel lui-même.
Cette amélioration de la prédiction d'alignement se fait au détriment de la précision sur les cas non alignés.
L'analyse de calibration suggère que les modèles s'appuient sur des indices référentiels statiques sur les cartes plutôt que sur le suivi de l'ancrage à travers l'historique du dialogue.
Ces motifs ont été observés de manière plus claire dans Qwen3-VL-8B-Instruct et, à divers degrés, dans quatre modèles supplémentaires issus de deux familles d'architectures.

Les résultats indiquent que les VLM confondent l'information potentiellement partagée avec le terrain commun établi, traitant le contenu de la carte comme une preuve de compréhension mutuelle plutôt que de suivre comment l'ancrage se déroule à travers l'interaction.