एक अध्ययन जांचता है कि क्या विज़न-लैंग्वेज मॉडल (VLMs) उन चीज़ों के बीच भेद कर सकते हैं जो साझा की जा सकती हैं और वे जो सहयोगी संवाद के दौरान स्थापित सामान्य समझ के रूप में माने गए हैं। शोधकर्ताओं ने नियंत्रित स्थितियों में मॉडल व्यवहार का आकलन करने के लिए HCRC MapTask संवादों से 13,077 अंकित संदर्भ अभिव्यक्तियों का उपयोग करके एक व्याख्या-मिलान कार्य तैयार किया।

  • प्रामाणिक मानचित्र छवियाँ प्रदान करने से समग्र प्रदर्शन में सुधार होता है, लेकिन इससे मॉडल भागीदार के दृष्टिकोण के साथ अति-अनुमानित संरेखण का कारण बनते हैं।
  • मानचित्र सामग्री की पाठ्य विवरण इस पूर्वाग्रह को पुनः उत्पन्न करते हैं, जबकि गैर-सूचनात्मक छवियाँ संरेखण अनुमानों को पूरी तरह से दबा देती हैं।
  • यह पूर्वाग्रह दृश्य चैनल के बजाय कार्य-संबंधी मानचित्र सामग्री द्वारा संचालित है।
  • संरेखण अनुमान में यह सुधार गैर-संरेखित मामलों पर सटीकता के क्षरण की कीमत पर आता है।
  • कैलिब्रेशन विश्लेषण संकेत देते हैं कि मॉडल संवाद इतिहास के माध्यम से ग्राउंडिंग को ट्रैक करने के बजाय मानचित्रों पर स्थिर संदर्भ संकेतों पर निर्भर करते हैं।
  • ये पैटर्न Qwen3-VL-8B-Instruct में सबसे स्पष्ट रूप से देखे गए और दो आर्किटेक्चर परिवारों से चार अतिरिक्त मॉडलों में विभिन्न डिग्रियों में देखा गया।

निष्कर्ष संकेत देते हैं कि VLMs संभावित साझा जानकारी को स्थापित सामान्य आधार के साथ भ्रमित करते हैं, मानचित्र सामग्री को पारस्परिक समझ के प्रमाण के रूप में देखते हैं और इसकी बजाय इंटरैक्शन के माध्यम से ग्राउंडिंग कैसे विकसित होती है, उसे ट्रैक नहीं करते।