تقدم الورقة البحثية EduArt، وهو مقياس على المستوى التعليمي لتقييم المعرفة التاريخية للفن والاستدلال البصري في نماذج اللغات الكبيرة متعددة الوسائط. يتكون من 871 سؤالًا من إعداد بشري مستمدة من تمارين المدارس الثانوية الإيطالية وامتحانات تاريخ الفن AP (المتقدمة) في الولايات المتحدة.

  • تم تقييم اثني عشر نموذجًا من ست عائلات مزودين تحت شروط الإجابة فقط والدافع.
  • بلغت دقة الخيارات المتعددة ذروتها بالقرب من السقف بالنسبة لستة نماذج، مما فشل في تمييز القدرات المتطورة.
  • كان التنسيق متنبئًا قويًا للدقة؛ حيث انخفض Claude Opus 4.6 من أكثر من 94% في الخيارات المتعددة إلى 23.9% في الإكمال المفتوح.
  • أظهر المقياس خصائص سايكومترية قوية مع متوسط تمييز قدره 0.514.

يجادل المؤلفون بأن مقاييس التنسيق الواحد تبالغ في تقدير موثوقية النماذج، وأن رسم خرائط ملفات تعريف القدرات أمر أساسي للاستخدام المسؤول في الدراسات التاريخية للفن.