पत्र में EduArt पेश किया गया है, जो मल्टीमोडल बड़े भाषा मॉडलों में कला-ऐतिहासिक ज्ञान और दृश्य तर्कशक्ति का मूल्यांकन करने के लिए एक शैक्षिक-स्तर का बेंचमार्क है। इसमें इतालवी माध्यमिक विद्यालय अभ्यासों और अमेरिकी एडवान्सड प्लेसमेंट कला इतिहास परीक्षाओं से 871 मानव-लेखित प्रश्न शामिल हैं।

  • छह प्रदाता परिवारों के बारह मॉडलों का उत्तर-केवल और प्रेरणा स्थितियों में मूल्यांकन किया गया।
  • छह मॉडलों के लिए बहुविकल्पीय सटीकता छत के पास संतृप्त हो गई, जो अग्रणी क्षमताओं को भेद नहीं पाई।
  • प्रारूप सटीकता का एक मजबूत पूर्वानुमानक था; Claude Opus 4.6 की सटीकता बहुविकल्पीय में 94% से अधिक से खुले पूर्ण करने में 23.9% तक गिर गई।
  • बेंचमार्क ने 0.514 के माध्य भेदभाव के साथ मजबूत मनोमिति गुण प्रदर्शित किए।

लेखकों का तर्क है कि एकल-प्रारूप बेंचमार्क मॉडल विश्वसनीयता का अतिआकलन करते हैं और कला-ऐतिहासिक विद्वानता में जिम्मेदार उपयोग के लिए क्षमता प्रोफ़ाइल को मैप करना आवश्यक है।