शोधकर्ताओं ने MSQA पेश किया, जो 11 भाषा समूहों और पांच सांस्कृतिक आयामों के लिए प्राकृतिक रूप से स्रोतित 1,064 प्रश्नों का एक बेंचमार्क है, यह परीक्षण करने के लिए कि बहुभाषी फ्लुएन्सी सांस्कृतिक अलाइनमेंट को इंगित करती है। 18 बड़े भाषा मॉडल का मूल्यांकन महत्वपूर्ण सांस्कृतिक क्षय और एक उल्लेखनीय स्थानीय प्रभाव (Locality Effect) को उजागर करता है, जहाँ योग्यता पूर्व-प्रशिक्षण एक्सपोजर के साथ ट्रैक करती है न कि सामान्य तर्कशक्ति के साथ।

  • MSQA स्थानीय रूप से आधारित ज्ञान को लक्षित करता है ताकि अंग्रेजी-केंद्रित क्रॉस-लिंगुअल ट्रांसफर से शॉर्टकट कम किए जा सकें।
  • बहुभाषी क्षमताओं के बावजूद मॉडल अनजान सांस्कृतिक प्रश्नों पर अत्यधिक आत्मविश्वासी रहते हैं।
  • बार-बार सैंपलिंग से स्थिरता नहीं मिलती है, और रेट्रीवल ऑगमेंटेशन लॉन्ग-टेल तथ्यों पर असमान रूप से मदद करता है।

निष्कर्ष संकेत देते हैं कि सांस्कृतिक अलाइनमेंट को केवल बहुभाषी क्षमता से अनुमानित नहीं किया जा सकता है और इसे कैलिब्रेशन, सैंपलिंग या इनफरेंस समय पर रेट्रीवल से गहरा हस्तक्षेत्र की आवश्यकता है।