EduArt बेंचमार्क दर्शाता है कि मल्टीमोडल LLMs कला इतिहास ज्ञान का अतिआकलन करते हैं

पत्र में EduArt पेश किया गया है, जो मल्टीमोडल बड़े भाषा मॉडलों में कला-ऐतिहासिक ज्ञान और दृश्य तर्कशक्ति का मूल्यांकन करने के लिए एक शैक्षिक-स्तर का बेंचमार्क है। इसमें इतालवी माध्यमिक विद्यालय अभ्यासों और अमेरिकी एडवान्सड प्लेसमेंट कला इतिहास परीक्षाओं से 871 मानव-लेखित प्रश्न शामिल हैं।

छह प्रदाता परिवारों के बारह मॉडलों का उत्तर-केवल और प्रेरणा स्थितियों में मूल्यांकन किया गया।
छह मॉडलों के लिए बहुविकल्पीय सटीकता छत के पास संतृप्त हो गई, जो अग्रणी क्षमताओं को भेद नहीं पाई।
प्रारूप सटीकता का एक मजबूत पूर्वानुमानक था; Claude Opus 4.6 की सटीकता बहुविकल्पीय में 94% से अधिक से खुले पूर्ण करने में 23.9% तक गिर गई।
बेंचमार्क ने 0.514 के माध्य भेदभाव के साथ मजबूत मनोमिति गुण प्रदर्शित किए।

लेखकों का तर्क है कि एकल-प्रारूप बेंचमार्क मॉडल विश्वसनीयता का अतिआकलन करते हैं और कला-ऐतिहासिक विद्वानता में जिम्मेदार उपयोग के लिए क्षमता प्रोफ़ाइल को मैप करना आवश्यक है।