Makalah ini memperkenalkan EduArt, sebuah benchmark tingkat pendidikan untuk mengevaluasi pengetahuan sejarah seni dan penalaran visual dalam model bahasa besar multimoda. Benchmark ini terdiri dari 871 pertanyaan yang ditulis oleh manusia dari latihan sekolah menengah Italia dan ujian Sejarah Seni AP (Advanced Placement) AS.
- Dua belas model dari enam keluarga penyedia dievaluasi di bawah kondisi hanya jawaban dan motivasi.
- Akurasi pilihan ganda jenuh mendekati batas atas untuk enam model, gagal membedakan kemampuan terdepan.
- Format adalah prediktor kuat akurasi; Claude Opus 4.6 turun dari lebih dari 94% pada pilihan ganda menjadi 23,9% pada penyelesaian terbuka.
- Benchmark ini menunjukkan sifat psikometrik yang kuat dengan diskriminasi rata-rata 0,514.
Para penulis berargumen bahwa benchmark format tunggal melebih-lebihkan keandalan model dan bahwa pemetaan profil kemampuan sangat penting untuk penggunaan yang bertanggung jawab dalam scholarship sejarah seni.