Qwen3-VL-8B-Instruct y otros VLMs sobreestiman la base común en el diálogo

Un estudio investiga si los modelos de visión-lenguaje (VLMs) pueden distinguir entre lo que podría ser compartido y lo que se ha establecido como comprensión compartida durante un diálogo colaborativo. Los investigadores formularon una tarea de coincidencia de interpretación utilizando 13,077 expresiones de referencia anotadas de diálogos HCRC MapTask para evaluar el comportamiento del modelo bajo condiciones controladas.

Proporcionar imágenes auténticas de mapas mejora el rendimiento general pero hace que los modelos predigan en exceso la alineación con la perspectiva del compañero.
Las descripciones textuales del contenido del mapa reproducen este sesgo, mientras que las imágenes no informativas suprimen por completo las predicciones de alineación.
El sesgo está impulsado por el contenido del mapa relevante para la tarea en lugar del canal visual en sí mismo.
Esta mejora en la predicción de alineación ocurre a costa de una precisión degradada en los casos no alineados.
El análisis de calibración sugiere que los modelos dependen de referencias estáticas en los mapas en lugar de rastrear el anclaje a través del historial del diálogo.
Estos patrones se observaron más claramente en Qwen3-VL-8B-Instruct y en diversos grados en cuatro modelos adicionales de dos familias de arquitecturas.

Los hallazgos indican que los VLMs confunden la información potencialmente compartida con la base común establecida, tratando el contenido del mapa como evidencia de comprensión mutua en lugar de rastrear cómo se desarrolla el anclaje a través de la interacción.