Qwen3-VL-8B-Instruct ونماذج VLM الأخرى تبالغ في تقدير الأرضية المشتركة في الحوار

تحقيقًا لمعرفة ما إذا كانت نماذج الرؤية واللغة (VLMs) يمكنها التمييز بين ما يمكن مشاركته وما تم تثبيته كفهم مشترك أثناء الحوار التعاوني. صاغ الباحثون مهمة مطابقة التفسير باستخدام 13,077 تعبير مرجعي مُعلّم من حوارات HCRC MapTask لتقييم سلوك النموذج في ظروف خاضعة للرقابة.

توفير صور خرائط حقيقية يحسّن الأداء العام ولكنه يجعل النماذج تتنبأ بتوافق مفرط مع منظور الشريك.
الأوصاف النصية لمحتوى الخريطة تعيد إنتاج هذا التحيز، بينما الصور غير المفيدة تكبح تنبؤات التوافق تمامًا.
يُقاد هذا التحيز بمحتوى الخرائط ذي الصلة بالمهمة بدلاً من القناة البصرية نفسها.
يأتي هذا التحسن في تنبؤ التوافق على حساب تدهر الدقة في الحالات غير المتوافقة.
يشير تحليل المعايرة إلى أن النماذج تعتمد على إشارات مرجعية ثابتة على الخرائط بدلاً من تتبع الأرضية عبر تاريخ الحوار.
رُصدت هذه الأنماط بوضوح أكبر في Qwen3-VL-8B-Instruct وبدرجات متفاوتة في أربعة نماذج إضافية من عائلتي بنية.

تشير النتائج إلى أن نماذج VLM تخلط بين المعلومات التي يمكن مشاركتها والأرضية المشتركة المُثبتة، معاملة محتوى الخريطة كدليل على الفهم المتبادل بدلاً من تتبع كيفية تطور الأرضية عبر التفاعل.