Qwen3-VL-8B-Instruct और अन्य VLM संवाद में सामान्य आधार का अतिआकलन करते हैं

एक अध्ययन जांचता है कि क्या विज़न-लैंग्वेज मॉडल (VLMs) उन चीज़ों के बीच भेद कर सकते हैं जो साझा की जा सकती हैं और वे जो सहयोगी संवाद के दौरान स्थापित सामान्य समझ के रूप में माने गए हैं। शोधकर्ताओं ने नियंत्रित स्थितियों में मॉडल व्यवहार का आकलन करने के लिए HCRC MapTask संवादों से 13,077 अंकित संदर्भ अभिव्यक्तियों का उपयोग करके एक व्याख्या-मिलान कार्य तैयार किया।

प्रामाणिक मानचित्र छवियाँ प्रदान करने से समग्र प्रदर्शन में सुधार होता है, लेकिन इससे मॉडल भागीदार के दृष्टिकोण के साथ अति-अनुमानित संरेखण का कारण बनते हैं।
मानचित्र सामग्री की पाठ्य विवरण इस पूर्वाग्रह को पुनः उत्पन्न करते हैं, जबकि गैर-सूचनात्मक छवियाँ संरेखण अनुमानों को पूरी तरह से दबा देती हैं।
यह पूर्वाग्रह दृश्य चैनल के बजाय कार्य-संबंधी मानचित्र सामग्री द्वारा संचालित है।
संरेखण अनुमान में यह सुधार गैर-संरेखित मामलों पर सटीकता के क्षरण की कीमत पर आता है।
कैलिब्रेशन विश्लेषण संकेत देते हैं कि मॉडल संवाद इतिहास के माध्यम से ग्राउंडिंग को ट्रैक करने के बजाय मानचित्रों पर स्थिर संदर्भ संकेतों पर निर्भर करते हैं।
ये पैटर्न Qwen3-VL-8B-Instruct में सबसे स्पष्ट रूप से देखे गए और दो आर्किटेक्चर परिवारों से चार अतिरिक्त मॉडलों में विभिन्न डिग्रियों में देखा गया।

निष्कर्ष संकेत देते हैं कि VLMs संभावित साझा जानकारी को स्थापित सामान्य आधार के साथ भ्रमित करते हैं, मानचित्र सामग्री को पारस्परिक समझ के प्रमाण के रूप में देखते हैं और इसकी बजाय इंटरैक्शन के माध्यम से ग्राउंडिंग कैसे विकसित होती है, उसे ट्रैक नहीं करते।