논문은 멀티모달 대규모 언어 모델의 미술사 지식과 시각적 추론을 평가하기 위한 교육 수준의 벤치마크인 EduArt를 소개합니다. 여기에는 이탈리아 중학교 연습 문제와 미국 AP 미술사 시험에서 인간이 작성한 871개의 질문이 포함되어 있습니다.

  • 여섯 제공자 계열의 열두 모델이 답변 전용 및 동기 조건 하에서 평가되었습니다.
  • 여러 선택지 정확도는 여섯 모델에서 천장 근처에서 포화되어 최전선 능력을 구분하지 못했습니다.
  • 형식은 정확도의 강력한 예측 변수였으며, Claude Opus 4.6은 객관식에서 94% 이상에서 개방형 완성 문제로 떨어지며 23.9%로 하락했습니다.
  • 벤치마크는 평균 변별력 0.514를 가진 강한 심리계측적 특성을 보였습니다.

저자들은 단일 형식 벤치마크가 모델 신뢰성을 과대평가하며, 미술사 연구에서 책임 있는 사용을 위해 능력 프로필 매핑이 필수적이라고 주장합니다.